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推荐 序 


在 流行 的 编程 语言 中 ，Ruby 比较 另类 ， 这 是 因为 大 多 数 编 程 语言 的 首 
要 着 眼 点 在 于 为 解决 特定 的 问题 领域 而 设计 语言 ， 而 Ruby 的 首要 着 眼 
点 在 于 “人 性 化 ”， 让 程序 员 充 分 享受 编程 的 乐趣 。 由 于 组 织 国 内 的 
Ruby 会 议 ， 我 曾经 两 次 邀请 松本 行 弘 来 中 国 。 他 是 一 位 性 格 平和 、 对 
生活 充满 热爱 的 人 ， 在 演讲 中 也 一 再 传递 code for fun 的 宗旨 ， 即 编程 
语言 不 应 该 是 冷冰冰 地 给 机 器 阅读 和 执行 的 指令 ， 而 应 该 是 让 程序 员 编 
程 的 工作 过 程 变 成 一 种 充满 乐趣 和 享受 的 过 程 。 而 且 ， 松 本 先生 发 明 
Ruby 语言 也 是 因为 他 对 创造 一 种 人 性 化 的 面 回 对 象 脚本 语言 的 热爱 。 


程序 员 社 区 经 常 拿 另 外 一 个 主流 的 面向 对 象 脚本 语言 Python 来 和 Ruby 
做 对 比 。 从 全 球 范 围 来 看 ，Python 的 社区 更 大 ， 应 用 更 广泛 ， 但 Ruby 
的 语法 相对 Python 来 说 更 强大 和 宽松 ， 给 程序 员 发 挥 的 自由 上 度 更 大 ， 

可 以 基于 Ruby 创建 各 个 领域 的 DSL， 比 方 说 Ruby on Rails 就 是 一 个 基 
于 Ruby 的 Web 快速 开发 领域 的 DSL。 


总 之 ，Ruby 语言 的 这 种 “人 性 化 "以 及 给 程序 员 很 大 编程 自由 度 的 气质 
葛 定 了 整个 Ruby 社区 的 气质 : 热爱 生活 的 程序 员 ， 妃 求 编程 的 自由 
度 ， 带 点 非 主 流 的 极 客 色彩 。 也 正 因 为 如 此 ，Ruby 和 基于 Ruby 的 
Rails 得 到 了 硅谷 许 许多 多 创业 公司 的 青睐 ， 有 名 者 如 Twitter、 
Groupon、Hulu、github 等 。 而 这 种 气质 也 很 鲜明 地 体现 在 Rails 框架 的 
创建 者 David Heinemeier Hansson 及 其 所 在 的 37signals 公司 身上 。 
37signals 的 20 多 位 员工 壳 布 全 球 ， 每 周 只 上 班 四 天 ，David Heinemeier 
Hansson 本 人 同时 还 是 一 位 保时捷 车 队 的 职业 赛车 手 。 


当然 ，Ruby 并 非 只 在 非 主流 程序 员 社 区 中 流行 ， 随 着 全 球 开 产业 进入 
云 计算 时 代 ，Ruby 也 发 挥 着 越 来 越 大 的 作用 。 著 名 的 SAAS 广 丙 
salesforce 在 2010 年 底 以 2.1 亿美 元 收购 了 PAAS 厂商 Heroku， 并 且 在 
2011 年 7 月 聘请 松本 行 弘 担 任 Heroku 首席 架构 师 ， 开 拓 Ruby 在 云 计 
算 领 域 的 应 用 。Heroku 本 身 就 是 一 个 完全 采用 Ruby 架构 的 PAAS 平 
台 ， 同 样 支持 Ruby 的 PAAS 厂商 还 有 EngineYard、VMware 等 。 随 着 
这 些 云 计算 厂商 的 努力 ，Ruby 必然 在 未 来 得 到 越 来 越 广泛 的 应 用 。 


我 之 前 阅读 了 本 书 的 部 分 半 节 ， 这 本 书 实际 上 古松 本 行 弘 从 一 个 编程 语 



































言 设计 者 的 角度 去 看 待 各 种 各 样 的 流行 编程 语言 ， 分 析 它 们 有 哪些 特 
点 ， 以 及 Ruby 编程 语言 是 如 何 取 舍 的 。Ruby 编程 语言 的 设计 本 里 大 量 
地 参考 了 一 个 更 古老 而 著名 的 面向 对 象 编程 方法 的 开山 之 作 Smalltalk， 
而 且 从 冰 数 式 编程 语言 蜡 祖 LISP“ 偷 师 学 艺 " 了 不 少 好 东西 。 程 序 员 社区 
有 个 著名 的 说 法 : 任何 现代 编程 语言 言 都 脱胎 于 Smalltalk 和 LISP， 都 与 
这 两 个 编程 语言 有 着 似曾相识 的 特性 ， 目 Smalltalk 和 LISP 诞生 以 来 ， 
编程 语言 信 页 域 可 谓 大 扫 已 定 了 。 因 此 ， 集 这 两 种 编程 语言 诸多 特点 于 一 
呈 的 Ruby 语言 很 值得 编程 爱好 者 去 学 习 ， 而 看 看 Ruby 设计 师 是 怎么 
设计 Ruby 语言 的 ， 则 可 以 让 你 高 屋 建 领 地 理解 一 些 主流 的 编程 语言 。 


范 翅 
ITeye 网 站 创始 人 ，CSDN 产品 总 监 


《图 灵 公 司 感谢 李 琳 双 、 第 新 居士 等 对 本 次 重印 勘误 工作 的 贡献 。 
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从 年 轻 的 时 候 开 始 ， 我 束 对 编程 语言 有 着 极为 浓厚 的 兴趣 。 比 起 “使 用 
计算 机 干什么 ”这 一 问题 ， 我 总 是 一 门 必 思想 着 “如 何 将 目 己 的 意图 传达 
给 计算 机 ”。 从 这 个 意义 上 说 ， 我 认为 自己 是 个 “怪人 ”。 但 是 ， 想 选择 
一 个 能 让 自己 的 工作 变 得 轻松 的 编程 语言 ， 想 编写 一 种 让 人 用 起 来 感到 
快乐 的 编程 语言 ， 一 直 是 我 梦 几 以 求 的 ， 这 种 迫切 的 心情 仆人 不 输 于 任 
何人 。 虽 说 是 有 点 自 卖 自 夺 ， 但 是 Ruby 确实 给 我 带 来 了 “快乐 ?， 这 一 
结果 让 我 感到 很 满足 。 


让 我 感到 惊奇 的 是 ， 有 很 多 人 ， 包 括 那 些 没有 我 这 么 “ 怪 ” 的 人 ， 都 对 这 
种 快乐 有 着 共鸣 。Ruby 自 1995 年 在 互联 网 上 公布 以 来 ， 着 实 让 世界 各 
地 的 程序 员 都 认识 了 它 ， 共 享 着 这 种 快乐 ， 提 高 了 软件 开发 的 生产 力 。 
完全 出 乎 我 意料 的 是 ， 世 界 各 地 的 人 人， 不管 是 东方 还 是 西方 ， 都 极为 欣 
赏 Ruby。 在 刚 开 始 开 发 Ruby 的 时 候 ， 我 想 都 没有 想到 过 有 这 样 的 结 
果 ， 程 序 员 的 感觉 会 超越 人 种 、 国 籍 、 文 化 ， 有 如 此 之 多 的 共通 之 处 。 


现在 ， 为 世界 各 地 的 程序 员 所 广泛 接受 的 Ruby， 正 带 来 一 种 新 的 文 
化 。 已 经 有 越 来 越 多 的 开发 人 员 ， 在 实践 中 果敢 地 施行 着 Ruby 语言 及 
其 社区 所 追求 的 “对 高 生产 力 的 退 求 `“ 富 有 和 柔性 的 软件 开发 “对 程 
序 员 人 性 的 章 重 ”“ 琢 起 勇气 挑战 新 技术 ”等 原则 。 在 Ruby 以 前 ， 这 些 
想法 也 都 很 好 ， 却 一 直 实 践 不 起 来 。 我 相信 ，Ruby 的 时 越 之 处 ， 不 仅 
在 于 语言 能 力 ， 而 且 更 重要 的 是 引领 了 这 种 文化 的 践 行 。 


本 书 在 解说 编程 中 的 技术 与 原则 时 ， 不 局 限于 表面 现象 ， 而 是 努力 挖掘 
其 历史 根源 ， 换 示 其 本 质 。 虽 然 很 多 章 市 都 以 Ruby 为 题材 ， 但 这 些 原 
则 对 于 Ruby 以 外 的 语言 也 行 之 有 效 。 囊 心 希望 大 家 能 够 实践 本 书 中 所 
讲述 的 各 项 原则 ， 成 为 一 个 更 好 的 开发 人 员 。 



































松本 行 弘 
2011 年 4 月 18 日 


~ EN 


用 吾 


本 书 的 目的 不 是 深入 讲解 哪 种 特定 的 技术 ， 也 没有 全 面 讨论 我 所 开发 的 
编程 语言 Ruby， 而 是 从 全 局 角度 考察 了 与 编程 相关 的 各 种 技术 。 读 者 
于 万 不 要 以 为 拿 着 这 本 书 ， 就 可 以 按 图 索 台 地 解决 实际 问题 了 。 实 际 
= 


每 种 技术 、 思 想 都 有 其 特定 的 目的 、 渊 源 和 发 展 进 步 的 过 程 。 本 书 试图 
换 一 个 角度 重新 考察 各 种 技术 。 如 果 你 看 过 后 能 够 感觉 到 “ 啊 ， 原 来 是 
这 样 的 呀 ! ”或 者 “ 噢 ， 原 来 这 个 技术 的 立足 点 在 这 里 呀 ! ”那么 我 就 深 
感 欣慰 了 。 我 的 愿望 就 是 这 些 知 识 能 够 激发 读者 学 习 新 技术 的 求知 欲 。 


本 书 的 第 2 章 到 第 14 章 ， 是 在 《日 经 Linux》 和 杂志 于 2005 年 5 月 到 
2009 年 4 月 连载 的 < 松本 编程 模式 讲坛 "基础 上 编辑 修改 而 成 的 。 但 实际 
上 连载 与 最 开始 的 设想 并 不 一 致 ， 真 正 涉及 “模式 ”的 内 容 其 实 不 多 ， 倒 
是 技术 内 幕 、 背 景 分 析 等 内 容 占 了 主流 。 现 在 想来 ， 大 方向 并 没有 错 。 


除了 连载 的 内 容 之 外 ， 本 书 还 记录 了 我 对 编程 问题 的 新 思考 和 新 看 法 。 
得 别 生 第 工 生 "我 为 什么 开发 Ruby ”， 针对 “为 什么 是 Ruby” 这 一 点 ， 比 
> 志 做 了 更 加 深入 的 解说 。 男 外 ， 在 每 音 的 末尾 增加 了 一 个 小 专 











对 于 连载 的 内 容 ， 因 为 要 出 成 一 本 书 ， 除 修改 了 明显 的 错误 和 不 合 时 代 
的 部 分 内 容 之 外 ， 我 力求 每 一 章 都 独 成 一 体 、 内 容 完 整 ， 同 时 也 保留 了 
连载 时 的 风貌 。 通 读 全 书 ， 读 者 也 许 会 感觉 到 有 些 话题 或 讲解 是 重复 

的 ， 这 一 反 敬 请 原 诉 。 

我 的 本 职工 作 是 程序 员 ， 不 能 集中 大 段 时 间 去 写 书 ， 不 过 无 论 如 何 最 后 
总 算是 赶 出 来 了 。 非 名 感谢 我 的 家 人 ， 她 们 在 这 么 长 时 间 里 宽容 着 我 这 
个 情绪 不 稳 的 丈夫 和 父 杀 。 


稿子 写 完 了 ， 书 也 出 来 了 ， 想 着 总 算 告 一 段落 0 而 《日 经 Linux》 
又 要 开始 连载 “松本 行 弘 技术 剖析 了， 灵 怕 还 要 继续 让 家 里 人 芭 心 。 


松本 行 弘 














2009 年 4 月 于 樱花 季节 过 后 的 松江 


第 1 革 我 为 什么 开 友 Ruby 
1.1 我 为 什么 开发 Ruby 


Ruby 是 起 源 于 日 本 的 编程 语言 。 近 年 来 ， 特 别 是 因为 其 在 Web 开 及 方 
面 的 效率 很 高 ，Ruby 引起 了 全 世界 的 关注 ， 它 的 应 用 范围 也 扩展 到 了 
很 多 企业 领域 。 


作为 一 门 编程 语言 ，Ruby 正在 被 越 来 越 多 的 人 所 了 解 ， 而 作为 一 介 工 
程 师 的 我 ， 松 本 行 鸡 ， 刚 开始 的 时 候 并 没有 想 过 “让 全 世界 的 人 都 来 用 
它 ? 或 者 "这 下 子 可 以 大 赚 一 笔 了 ”， 一 个 仅仅 是 从 兴趣 开始 的 项 目 却 在 
不 知 不 觉 中 发 展 成 了 如 今 的 样子 。 


当然 了 ， 那 时 开发 Ruby 并 不 是 我 的 本 职工 作 ， 纯 属 个 人 兴趣 ， 我 是 把 
它 作 为 一 个 自由 软件 来 开发 的 。 但 是 世事 弄 人 ， 现 在 开发 Ruby 竟然 变 
成 我 的 本 职工 作 了 ， 想 想 也 有 些 不 可 思议 。 


“你 为 什么 开发 Ruby? ”每 当 有 人 这 样 问 我 的 时 候 ， 我 认为 最 合适 的 回 
答应 该 就 像 Linux 的 开发 者 Linus Torvalds 对 “为 什么 开发 Linux” 的 回答 
= 站 F 吧 == 

“因为 它 给 我 带 来 了 快乐 。” 

当 我 还 是 一 个 高 中 生 ， 刚 刚 开 始 学 习 编 程 的 时 候 ， 不 知 何故 ， 束 对 编程 
语言 产生 了 兴趣 。 

周围 很 多 喜欢 计算 机 的 人 1 ， 有 的 是 “ 想 开 发 游戏 "， 有 的 是 “ 想 用 它 来 做 
计算 ”， 等 等 ， 都 是 “ 想 用 计算 机 来 做 些 什 么 ”。 而 我 呢 ， 则 想 弄 明白 “要 
用 什么 编程 语言 来 开发 ”" “用 什么 语言 开发 更 快乐 ”。 

1 当时 嘉 欢 计算 机 的 人 当然 还 是 少数 。 

高 中 的 时 候 ， 我 目 己 并 不 具备 开发 一 种 编程 语言 所 必需 的 技术 和 知识 ， 
而 且 当 时 也 没有 计算 机 。 但 是 ， 我 看 了 很 多 编程 语言 类 的 书籍 和 杂志 ， 
知道 了 “还 有 像 Lisp 这 样 优 秀 的 编程 语言 "、“Smalltalk 是 做 面 癌 对 象 设 























计 的 ”， 等 等 ， 在 这 些 方面 我 很 着 迷 。 上 大 学 时 就 目 然而 然 地 选修 了 计 
算 机 语言 专业 。10 年 后 ， 我 通过 开发 Ruby 实现 了 上 自己 的 梦想 。 


从 1993 年 开始 开发 Ruby 到 现在 已 经 过 去 16 年 了 。 在 这 么 久 的 时 间 
里 ， 我 从 未 因为 设计 Ruby 而 感到 厌烦 。 开 发 编程 语言 真是 一 件 非常 有 


意思 的 事情 。 
1.1.1 编程 语言 的 重要 性 


为 什么 会 这 么 喜欢 编程 语言 ? 我 自己 也 说 不 清 。 人 至 少 ， 我 知道 编程 语言 
古 非 常 重要 的 。 


最 根本 的 理由 是 : 语言 体现 了 人 类 思考 的 本 质 。 在 地 球 上 ， 没 有 任何 超 
越 人 类 智慧 的 生物 ， 也 只 有 人 类 能 够 使 用 语言 。 所 以 ， 正 是 因为 语言 ， 
才 造 成 了 人 类 和 别 的 生物 的 区 别 ， 正 是 因为 语言 ， 人 和 人 之 间 才 能 传递 
知识 和 交流 思想 ， 才 能 做 深入 的 思考 。 如 果 没 有 了 语言 ， 人 类 和 别 的 动 
物 也 就 不 会 有 太 大 的 区 别 了 。 


在 语言 学 领域 里 ， 有 一 个 Sapir-Whirf 假说 ， 认 为 语言 可 以 影响 说 话 者 
的 思想 。 也 就 是 说 ， 语 言 的 不 同 ， 造 成 了 思想 的 不 同 。 人 类 的 自然 语言 
是 不 是 像 这 个 假说 一 样 ， 我 不 是 很 清楚 * ， 但 是 我 觉得 计算 机 语言 很 符 
合 这 个 假说 。 也 就 是 次 ， 程 序 员 由 于 使 用 的 编程 语言 不 同 ， 他 的 思考 方 
法 和 编写 出 来 的 代码 都 会 受到 编程 语言 的 很 大 影响 。 


2 在 语言 学 中 ，Sapir-Whirf 假说 好 像 是 越 来 越 站 不 住 脚 了 。 


也 可 以 这 么 说 ， 如 果 我 们 选择 了 好 的 编程 语言 ， 那 么 成 为 好 程序 员 的 可 
能 性 残 会 大 很 多 。 


20 年 来 一 直 被 奉 为 名 著 的 《人 月 神话 》 的 作者 Frederick P. Brooks 说 

过 : 一 个 程序 员 ， 不 管 他 使 用 什么 编程 语言 ， 他 在 一 定时 间 里 编写 的 程 
序 行 数 是 一 定 的 。 如 果真 是 这 样 ， 一 个 程序 员 一 天 可 以 写 500 行程 序 ， 
那么 不 论 他 用 汇编 、C， 还 是 Ruby， 他 一 天 都 应 该 可 以 写 500 行程 序 。 
但 是 ， 汇 编 的 500 行程 序 和 Ruby 的 500 行程 序 所 能 做 的 事情 是 有 天 壤 


之 别 的 。 程 序 员 根据 所 选择 编程 语言 的 不 同 ， 他 的 开发 效率 就 会 有 十 
倍 、 百 倍 甚至 上 千 倍 的 差别 。 





















































由 于 价格 降低 、 性 能 提高 ， 计 算 机 已 经 很 普及 了 。 现 在 基本 上 各 个 领域 

都 使 用 了 计算 机 ， 但 如 果 没 有 软件 ， 那 么 计算 机 这 个 盒子 恐怕 一 点 用 者 

0 ee 
可 和 软件。 


需要 开发 的 软件 越 来 越 多 ， 开 发 成 本 却 有 限 ， 所 以 对 于 开发 效率 的 要 求 
就 很 高 。 编 程 语言 就 成 了 解决 这 个 巴 盾 的 重要 工具 。 





1.1.2 ”Ruby 的 原则 

Ruby 本 来 是 我 因 兴 趣 而 开发 的 。 因 为 对 多 种 编程 语言 都 很 感 兴 趣 ， 我 
广泛 对 比 了 各 种 编程 语言 ， 哪 些 特性 好 ， 哪 些 特性 没什么 用 ， 等 等 ， 通 
过 一 一 进行 比较 、 选 择 ， 最 终 把 一 些 好 的 特性 吸纳 进 了 Ruby 编程 语言 
之 中 


如 果 什 么 特性 都 不 假 思索 地 吸纳 ， 那 么 这 种 编程 语言 只 会 变 成 以 往 编 程 
语言 的 翻版 ， 从 而 失去 了 它 作 为 一 种 新 编程 语言 的 存在 价值 。 


编程 语言 的 设计 是 很 困难 的 ， 需 要 仔细 殴 酌 。 值 得 高 兴 的 是 ，Ruby 的 
设计 很 成 功 ， 很 多 人 都 对 Ruby 给 出 了 很 好 的 评价 。 


那么 ，Ruby 编程 语言 的 设计 原则 是 什么 呢 ? 


Ruby 编程 语言 的 设计 目标 是 ， 让 作为 语言 设计 者 的 我 能 够 轻松 编程 ， 
进而 提高 开发 效 率 。 


根据 这 个 目标 ， 我 制定 了 以 下 3 个 设计 原则 。 
。 简洁 性 

。 扩展 性 

。 稳定 性 

关于 这 些 原 则 ， 下 面 分 别 加 以 说 明 。 














1.1.3 简洁 性 








以 Lisp 编程 语言 为 基础 而 开 肥 的 商业 软件 Viaweb 被 Yahoo 收购 后 ， 
Viaweb 的 作者 Paul Graham 也 成 了 大 富 聚 。 最近 近 他 又 成 了 知名 的 技术 专 
栏 作家 ， 写 了 一 篇 文章 就 叫 “ 人 简洁 就 是 力量 


3 Paul Graham 目前 是 世界 知名 的 天 使 投资 人 ， 其 公司 Y Combinator 投资 了 很 多 极 有 前 途 的 创业 
项 目 。Paul Graham 曾 出 版 过 两 本 Lisp 专著 ， 最 新 著作 《黑客 与 画家 》 已 经 由 人 民 邮 电 出 版 社 
出 版 。 编者 注 









































他 还 撰写 了 很 多 倡导 Lisp 编程 语言 的 文章 。 在 这 些 文章 中 他 提 到 ， 编 
程 语 言 在 这 半 个 世纪 以 来 是 辐 着 简洁 化 的 方 辐 发 展 的 ， 从 程序 的 简洁 程 
Re 
观点 。 


随 着 编程 语言 的 演进 ， 程 序 员 已 经 可 以 更 简单 、 更 抽象 地 编程 了 ， 这 是 
很 大 的 进步 。 男 外 随 着 计算 机 性 能 的 所 高 ， 以 前 在 编程 语言 里 实现 不 了 
的 功能 ， 现 在 也 可 以 做 到 了 。 


面 问 对 象 编程 就 是 这 样 的 例子 。 面 癌 对 象 的 思想 只 是 把 数据 和 方法 看 作 
一 个 整体 ， 当 作对 象 来 处 理 ， 并 没有 解决 以 前 解决 不 了 的 问题 。 


用 面 同 对 象 记述 的 算法 也 一 定 可 以 用 非 面 同 对 象 的 方法 来 实现 。 而 且 ， 
面 同 对 象 的 方法 并 没有 实现 任何 新 的 东西 ， 却 要 在 运行 时 判定 要 调用 的 
方法 ， 倾 癌 于 增 大 程序 的 运行 开销 。 即 使 是 实现 同样 的 算法 ， 面 问 对 象 
站 过 去 计算 机 的 执行 速度 不 够 快 ， 很 难 允 许 像 这 样 
J“ 浪 性 ”。 


而 现在 ， 由 于 计算 机 性 能 大 大 提高 ， 只 要 可 以 提高 软件 开发 效率 ， 浪 费 
一 些 计算 机 资源 也 无 所 谓 了 。 


再 举 一 些 例子 。 比 如 内 存 管理 ， 不 用 的 内 存 现在 可 用 垃圾 收集 器 自动 释 
放 ， 而 不 用 程序 员 上 自己 去 释放 了 。 变 量 和 表达 式 的 类 型 检查 ， 在 执行 时 
己 经 可 以 自动 检查 ， 而 不 用 在 编译 时 检查 了 。 


我 们 看 一 个 关于 韭 波 那 扫 (Fibonacci) 数 的 例子 。 图 1-1 所 示 为 用 Java 
TM 斐 波 那 契 数 。 算 法 有 很 多 种 ， 我 们 用 最 常用 的 递归 算法 来 实 
现 。 


class Sample { 
private static int fib (int n) { 
































if (n<2) { 
return n; 
} 
else{ 
return fib (n-2) +fib (n-1); 
} 


} 
public static void main (String[] argv) { 
System.out.println("fib(6)="+fib(6)); 
} 
} 























图 1-1 计算 斐 波 那 契 数 的 Java 程序 


图 1-2 所 示 为 完全 一 样 的 实现 方法 ， 它 是 用 Ruby 编程 语言 写 的 ， 算 法 
完全 一 样 。 和 Java 程序 相 比 ， 可 以 看 到 构造 完全 一 样 ， 但 是 程序 更 位 
洁 。Ruby 不 进行 明确 的 数据 类 型 定义 ， 不 必要 的 声明 都 可 以 省 略 。 所 
以 ， 程 序 就 非常 简洁 了 。 
def fib (ny) 

if n<2 


else 
fib (n-2) +fib (n-1) 











end 
end 
print "fib (6) =", fib (6) ,，"\n" 























图 1-2 ”计算 斐 波 那 契 数 的 Ruby 程序 
算法 的 教科 书 总 是 用 伪 码 来 描述 算法 。 如 果 像 这 样 用 实际 的 编程 语言 来 
描述 算法 ， 那 么 像 类 型 定义 这 样 的 非 实质 代 码 束 会 占 很 多 行 ， 让 人 不 能 
专心 于 算法 。 
如 果 可 以 把 伪 码 中 非 实质 的 东西 去 挥 ， 只 保留 描述 算法 的 部 分 就 直接 运 
行 ， 那 么 这 种 编程 语言 不 就 是 最 好 的 吗 ? Ruby 的 目标 就 是 成 为 开发 效 
率 高 、“ 能 直接 运行 的 伪 码 式 编程 语言 ”。 


1.1.4 扩展 性 




















下 一 个 设计 原则 是 “扩展 性 *”。 编 程 语言 作为 软件 开发 工具 ， 其 最 大 的 特 
征 就 是 对 要 实现 的 功能 事先 没有 限制 。“ 如 果 想 做 束 可 以 做 到 *”， 这 听 起 
来 像 小 孩子 说 的 话 ， 但 在 编程 语言 的 世界 里 ， 真 的 就 是 这 么 一 回 事 。 不 
管 在 什么 领域 ， 做 什么 处 理 ， 只 要 用 一 种 编程 语言 编写 出 了 程序 ， 我 们 
就 可 以 说 这 种 编程 语言 适用 于 这 一 领域 。 而 且 ， 涉 及 领域 之 广 会 远 远 超 
出 我 们 当初 的 预想 。 


1999 年 ， 关 于 Ruby 的 第 一 本 书 《 面 向 对 象 脚本 语言 Ruby》 出 版 的 时 
候 ， 我 在 里 面 写 道 ，“Ruby 不 适合 的 领域 "包括 “以 数值 计算 为 主 的 程 
序 " 和 “ 数 万 行 的 大 型 程序 ”。 


但 是 几 年 后 ， 规 模 达 几 万 行 、 几 十 万 行 的 Ruby 程序 被 开发 出 来 了 。 气 
象 数 据 分 析 ， 乃 至 生物 领域 中 也 用 到 了 Ruby。 现 在 ， 美 国 国家 海洋 和 
大 气管 理 局 (NOAA,， National Oceanic and Atmospheric 
Administration) 、 美 国 国家 航空 和 航天 局 (NASA，National 
Aeronautics and Space Administration ) 也 在 不 同 的 系统 中 运用 了 Ruby。 


情况 就 是 这 样 ， 编 程 语言 开发 者 事先 并 不 知道 这 种 编程 语言 会 用 来 开 友 
什么 ， 会 在 哪些 领域 中 应 用 。 所 以 ， 编 程 语言 的 扩展 性 非常 重要 。 


实现 扩展 性 的 一 个 重要 方法 是 抽象 化 。 抽 象 化 是 指 把 数据 和 要 做 的 处 理 
0 就 像 一 个 黑 盒 子 ， 我 们 不 知道 它 的 内 部 是 怎么 实现 的 ， 但 
征 可 以 用 筷 。 


以 前 的 编程 语言 在 抽象 化 方面 是 很 弱 的 ， 要 做 什么 处 理 衣 先 要 了 解 很 多 
顷 程 语言 的 细节 。 而 很 多 面 癌 对 象 或 者 函数 式 的 现代 编程 语言 ， 都 在 抽 
象 化 方面 做 得 很 好 。 


Ruby 也 不 例外 。Ruby 从 刚 开 始 设计 时 束 用 了 面 同 对 象 的 设计 方法 ， 数 
据 和 处 理 的 抽象 化 提高 了 它 的 开 友 效率 。 我 在 1993 年 设计 Ruby 时 ， 在 
脚本 编程 语言 中 米 用 面向 对 象 思想 的 还 很 少 ， 用 类 库 方 式 来 提供 编程 语 
言 的 就 更 少 了 。 所 以 现在 Ruby 的 成 功 ， 说 明 当 时 采用 面 癌 对 象 方法 的 
判断 是 正确 的 。 


Ruby 的 扩展 性 不 仅仅 体现 在 这 些 方 面 。 


比如 Ruby 以 程序 块 这 种 明白 易 慌 的 形式 给 程序 员 提 供 了 相当 于 Lisp 高 
阶 函数 的 特性 ， 使 “普通 的 程序 员 ” 也 能 够 通过 自 定 义 来 实现 控制 结构 的 






































高 阶 角 数 扩展 。 又 比如 已 有 类 的 扩展 特性 ， 虽 然 有 一 定 的 危险 性 ， 但 是 
程序 却 可 以 非常 灵活 地 扩展 。 关 于 这 些 面 问 对 象 、 程 序 块 、 类 扩展 特性 
的 内 容 ， 后 面 的 章节 还 会 详细 介绍 。 


这 些 特 性 的 共同 点 是 ， 它 们 都 表明 了 编程 语言 让 程序 员 最 大 限度 地 获得 

了 扩展 能 力 。 编 程 语言 不 是 从 安全 性 角度 考虑 以 减少 程序 员 犯 错误 ， 而 

是 在 程序 员 自 己 负责 的 前 提 下 为 他 提供 最 大 限度 发 挥 能 力 的 灵活 性 。 我 

作为 Ruby 的 设计 者 ， 也 是 Ruby 的 最 初 用 户 ， 从 这 种 设计 的 结果 可 以 

人 
能 


关于 扩展 性 ， 有 一 点 是 不 能 忽视 的 ， 即 “不 要 因为 想当然 而 加 入 无 谓 的 
限制 ?。 比 如 说 ， 刚 开始 开发 Unicode 时 ， 开 发 者 想当然 地 认为 16 位 

(65 535 个 字符 ) 就 足够 容纳 世界 上 所 有 的 文字 了 ; 同样 ，Y2K 问题 也 
是 因为 想当然 地 认为 用 2 位 数 表示 日 期 就 够 了 才 导 致 的 。 从 某 种 角度 

说 ， 编 程 的 历史 就 是 因为 想当然 而 失败 的 历史 。 而 Ruby 对 整数 范围 不 
做 任何 限定 ， 尽 最 大 努力 排除 “想当然 ”。 
































1.1.5 ”稳定 性 


里 然 Ruby 非常 重视 扩展 性 ， 但 是 有 一 个 特性 ， 尽 管 明 知道 它 能 剖 来 巨 
大 的 扩展 性 ， 我 却 一 直 将 其 拒 之 门 外 。 那 就 是 宏 ， 特 别 是 Lisp 风格 的 
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宏 可 以 蔡 换 掉 原 有 的 程序 ， 给 原 有 的 程序 加 入 新 的 功能 。 如 果 有 了 安 ， 
不 管 是 控制 结构 ， 还 是 赋值 ， 痢 可 以 随心 所 欲 地 进行 扩展 。 事 实 上 ， 
Lisp 编程 语言 提供 的 控制 结构 很 大 一 部 分 部 是 用 宏 来 定义 的 。 


所 谓 Lisp 流 ， 其 语言 核心 部 分 仅仅 提供 极为 有 限 的 特性 和 构造 ， 其 余 
的 控制 结构 都 是 在 编译 时 通过 用 宏 来 组 装 其 核心 特性 来 实现 的 。 这 也 就 
意味 着 ， 由 于 有 了 这 种 无 与 伦比 的 扩展 性 ， 只 要 掌握 了 Lisp 基本 语法 5 
式 ( 从 本 质 上 讲 就 是 括号 表达 式 ) ， 就 可 以 开发 出 千奇百怪 的 语言 。 
Common Lisp 的 读 取 宏 提供 了 在 读 取 S 式 的 同时 进行 语法 变换 的 功能 ， 
这 就 在 实际 上 摆脱 了 S 式 的 束缚 ， 任 何 语法 的 语言 都 可 以 用 Lisp 来 实 
现 。 


那么 ， 我 为 什么 拒绝 在 Ruby 中 引入 Lisp 那样 的 宏 昵 ? 这 是 因为 ， 如 果 
在 编程 语言 中 引入 宏 的 话 ， 活 用 宏 的 程序 就 会 像 是 用 完全 不 同 的 专用 编 








程 语言 写 出 来 的 一 样 。 比 如 说 Lisp 就 经 常 有 这 样 的 现象 ， 活 用 宏 编 写 
的 程序 A 和 程序 B， 只 有 很 少 一 部 分 是 共通 的 ， 从 语法 到 词汇 都 各 不 相 
同 ， 完 全 像 是 用 不 同 的 编程 语言 写 的 。 


对 程序 员 来 说 ， 程 夺 的 开发 效率 固然 很 重要 ， 但 是 写 出 的 程序 是 否 具 有 
很 蜗 的 可 读 性 也 非常 重要 。 从 整体 来 看 ， 程 序 员 读 程序 的 时 间 可 能 比 写 
程序 的 时 间 还 长 。 读 程序 包括 为 理解 程序 的 功能 去 读 ， 或 者 是 为 维护 程 
序 去 读 ， 或 者 是 为 调试 程序 去 读 。 


编程 语言 的 语法 是 解读 程序 的 路 标 。 也 就 是 说 ,我 们 可 以 不 用 追究 程序 
或 库 提供 的 类 和 方法 的 详细 功能 ， 但 是 ,，“ 这 里 调用 了 函数 "、“ 这 里 有 
判断 分 支 ”等 基本 的 “常识 ”在 我 们 读 程 序 时 很 重要 。 


可 是 一 旦 引入 了 宏 定 义 ， 这 一 常识 就 不 再 适用 了 。 看 起 来 像 是 方法 调 
用 ， 而 实际 上 可 能 是 控制 结构 ， 也 可 能 是 赋值 ， 也 可 能 有 非常 严重 的 副 
ee Rt 
日 当 困 难 。 


当然 了 ， 我 知道 世界 上 有 很 多 Lisp 程序 员 并 不 受 此 之 累 ， 他 们 正 古 通 
过 面 癌 特定 程序 定制 语言 而 最 大 限度 地 提高 了 开发 效率 。 不 过 在 我 个 人 
看 来 ， 他 们 只 是 极 少数 的 一 部 分 程序 员 。 


我 相信 ， 作 为 在 世界 上 广泛 使 用 的 编程 语言 ， 应 该 有 稳定 的 语法 ， 不 能 
像 随 风 球 荡 的 灯芯 那样 内 烁 不 定 。 


1.1.6 ”一 切 皆 因 兴 趣 


当然 ，Ruby 不 是 世界 上 唯一 的 编程 语言 ， 也 不 能 说 它 是 最 好 的 编程 语 
言 。 各 种 各 样 的 编程 语言 可 以 在 不 同 的 领域 中 应 用 ， 各 有 上 所 长 。 我 目 己 
以 及 其 他 Ruby 程序 员 ， 用 Ruby 开发 效率 很 蜗 ， 所 以 觉得 Ruby“ 最 为 得 
心 应 手 ”。 当 然 ， 用 惯 了 Python 或 者 Lisp 的 程序 员 ， 也 会 觉得 那些 编程 
语言 是 最 好 的 。 


不 管 怎 么 说 ， 编 程 语言 存在 的 目的 是 让 人 用 它 来 开发 程序 ， 并 且 尺 量 能 
提高 开发 效率 。 这 样 的 话 ， 才 能 让 人 在 开发 中 体会 到 编程 的 乐趣 。 


我 在 海外 讲演 的 时 候 ， 和 很 多 人 交流 过 使 用 Ruby 的 感想 ， 比 较 有 代表 
性 的 是 ， “用 Ruby 开发 很 快乐 ， 谢 谢 ! ” 
























































征 啊 ， 程 序 开发 本 来 就 是 一 件 很 快乐 、 很 刺激 和 很 有 创造 性 的 事情 。 想 
起 中 学 的 时 候 ， 用 功能 不 强 的 BASIC 编程 语言 开发 ， 当 时 也 是 很 快乐 
的 。 当 然 ， 工 作 中 会 有 很 多 的 限制 和 困难 ， 编 程 也 并 不 都 是 一 直 快 乐 
的 ， 这 也 是 世 之 常情 。 


小 





Ruby 能 够 提供 很 高 的 开发 效率 ， 让 我 们 在 工作 中 摆脱 很 多 困难 和 烦 
恼 ， 这 也 是 我 开发 Ruby 的 目的 之 一 吧 。 


第 2 草 面 问 对 象 


2.1 编程 和 面 同 对 象 的 关系 


所 谓 编 程 ， 就 是 把 工作 的 方法 告诉 计算 机 。 但 是 ， 计 算 机 是 没有 思想 
的 ， 它 只 会 简 蛙 地 按照 我 们 说 的 去 做 。 计 算 机 看 起 来 功 有 很 强大 ， 其 实 
它 也 仅仅 只 会 做 高 速 计算 而 已 。 如 采 告 诉 它 效率 很 低 的 方法 ， 它 也 只 是 
简单 机 械 地 去 执行 。 所 以 ， 到 展 是 最 大 程度 地 发 挥 计算 机 的 能 力 ， 还 征 
扼杀 它 的 能 力 ， 都 取决 于 我 们 编写 的 程序 了 。 


程序 员 让 计算 机 完全 按照 自己 的 意志 行事 ， 可 以 说 是 计算 机 的 “主宰 ”。 
话 虽 如 此 ， 但 世人 多 认为 程序 员 是 在 为 计算 机 工作 。 


， 不 只 是 一 般 人 ， 很 多 计算 机 业内 人 士 也 是 这 样 认为 的 ， 甚 至 比例 更 
。 难 道 因 为 是 工作 ， 所 以 就 无 可 寻 何 了 吗 ? 


2.1.1 颠倒 的 构造 


如 果 仔 细 想 想 ， 就 会 感到 很 不 可 思议 。 
人 我 们 到 底 是 从 什么 时 候 开 始 放弃 了 主宰 计算 机 这 个 
g 呢 ? 


我 想 ， 其 中 的 一 个 原因 是 “阿尔 法 综合 征 >。 阿 尔 法 综合 征 是 指 在 饲养 老 
物 狗 的 时 候 ， 宠 物 狗 误解 了 一 寺 细 心照 顾 它 的 主人 的 地 位 ， 反 笛 感 觉 到 
它 上 自己 是 主人 ， 比 主人 更 了 不 起 。 


计 复 负 也 个 是 好 何 候 的 。 系 统 设计 困难 生生 ， 程 序 有 时 也 会 有 独 误 。 和 
旦 有 规格 变更 ， 程 序 员 就 要 动手 改 程序 ， 程 序 有 了 错误 ， 也 需要 一 个 个 
纠正 过 来 。 

所 以 在 诸如 此 类 烦琐 的 工作 中 ， 束 会 发 生 所 谓 的 “ 逆 阿 尔 法 综合 征 ? 现 
象 ， 主 从 关系 颠倒 ， 程 序 员 沦 为 “计算 机 的 奴隶 ”， 说 得 客气 一 些 ， 也 项 
多 能 算是 “计算 机 的 看 门 狗 *。 难 道 这 是 人 性 使 然 ? 


不 ， 不 要 轻易 放弃 。 人 是 万 物 之 录 ， 比 计算 机 那 玩 意 儿 要 聪明 百倍 ， 当 
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然 应 该 摆脱 计算 机 奴隶 的 地 位 ， 把 工作 都 推 给 机 器 来 干 ， 目 己 尽 情 孚 受 
轻松 自在 。 因 此 ， 我 们 的 目标 束 是 让 程序 员 夺 回 主动 权 ! 

程序 员 如 末 能 够 充分 利用 好 计算 机 所 具有 的 高 速 计 算 能 力 和 信息 处 理 能 
es “ 像 变 戏法 一 样 ?完成 工作 ， 实 现 翻 天 履 


但 是 ， 要 想 赢得 这 场 夺回 主动 权 的 战争 ，“ 武 器 "是 必需 的 。 那 就 是 本 书 
要 讲解 的 “语言 "和 “技术 ”。 


Ruby 的 安 闭 














读者 中 恐怕 有 不 少 人 是 初次 安装 Ruby， 所 以 这 里 再 介绍 一 下 Ruby 的 
安装 方法 。 在 我 写 这 本 书 的 时 候 ，Ruby 的 版 本 是 1.9.1。 在 我 平时 使 
用 的 Debian GNU/Linux 操作 系统 中 ， 用 下 面 的 方法 来 安装 Ruby。 

其 他 的 Linux 操作 系统 大 多 也 提供 了 Ruby 的 开发 包 。 


在 Windows 操作 系统 中 安装 Ruby 时 ， 直 接点 击 安装 文件 就 可 以 了 。 
从 下 面 的 网 站 可 以 下 载 安 装 程序 : http://rubyinstaller.rubyforge.org 。 


如 果 从 Ruby 源 程序 来 编译 安装 的 话 ， 可 以 从 下 面 的 网 站 来 下 载 Ruby 
源 程 序 包 (tarball) : http://ruby-lang.org 。 


编译 和 安装 的 方法 如 下 。 














$ tar zxvf ruby-1.9.1-p0.tar.gz 
$ cd ruby-1.9.1-p9 
$ ./configure 


$ make 
$ su 
# make install 





2.1.2 主宰 计算 机 的 武器 


程序 员 或 者 将 要 成 为 程序 员 的 人 ， 如 果 成 了 计算 机 的 奴隶 ， 那 是 十 分 不 
幸 的。 为 了 能 够 主 军 计算 机 ， 必 须 以 计算 机 的 特性 和 编程 语言 作为 武 
器 。 








编程 语言 是 描述 程序 的 方法 。 目 前 有 很 多 种 编程 语言 ， 有 名 的 有 
BASIC、 FORTRAN、C、C++、Java、Perl、PHP、Python、Ruby 等 。 


从 数学 的 角度 来 看 ， 几 乎 所 有 的 编程 语言 都 具备 “图 灵 完 备 ” 的 属性 ， 
无 论 何 种 编程 语言 都 可 以 记述 等 价 的 程序 ， 但 这 并 不 是 说 选择 什么 样 的 
编程 语言 都 一 样 。 每 种 编程 语言 都 有 自己 的 特征 、 属 性 ， 部 各 有 长 处 和 
人 
很 大 的 不 同 。 


1 图 灵 完 备 指 在 可 计算 性 理论 中 ， 编 程 语言 或 任意 其 他 的 逻辑 系统 具有 等 同 于 通用 图 灵机 的 计 
算 能 力 。 换 言 之 ， 此 系统 可 与 通用 图 灵机 互相 模拟 。 这 个 词 源 于 引入 图 灵机 概念 的 数学 家 阿兰 。 
图 灵 (Alan Turing) 。 


有 研究 表明 ， 开 发 程序 时 用 的 编程 语言 和 生产 力 并 没有 关系 ， 不 论 用 什 
么 编程 语言 ， 一 定时 间 内 程序 的 开发 规模 《在 一 定 程度 上 ) 是 相当 的 。 


还 有 一 些 研究 表明 ， 对 于 同样 的 任务 ， 程 序 规模 会 因为 开发 时 选取 的 纺 
程 语言 和 库 而 相差 数 百 倍 ， 其 至 数 千 倍 。 所 以 如 果 选 用 了 合适 的 编程 语 
言 ， 那 么 你 的 能 力 就 可 能 增长 数 干 倍 。 

但 是 不 论 什么 部 是 有 代价 的 。 比 如 效率 高 的 开发 环境 ， 在 执行 时 效率 往 
往 会 很 低 。 还 有 很 多 领域 需要 人 们 想 尽 办 法 去 提高 速度 。 在 这 里 ， 因 为 
我 们 在 讨论 如 何 主宰 计算 机 ， 所 以 尽 可 能 地 选择 让 人 轻松 的 编程 语言 。 
基于 这 个 观点 ， 本 书 用 Ruby 编程 语言 来 讲解 。 当 然 ，Ruby 是 我 设计 
的 ， 讲 解 起 来 相对 也 就 容易 点 。 

Ruby 古 面 问 对 象 的 编程 语言 ， 共 有 简洁 和 一 致 性 。 开 发 Ruby 的 宗旨 是 
用 它 可 以 轻松 编程 。 

Ruby 的 运行 环境 多 种 多 样 ， 包 括 Linux 及 UNIX 系列 操作 系统 、 


Windows、MacOS X 等 各 种 平台 ， 很 多 系统 上 都 有 Ruby 的 软件 包 ? 。 
当然 ， 如 果 有 C 编译 器 ， 也 可 以 从 源 代码 来 安装 Ruby。 


2 比如 MacOS X 10.5 中 标准 搭载 了 Ruby 1.8.6。 
2.1.3 ”怎样 写 程序 


使 用 编程 语言 写 好 程序 是 有 技巧 的 。 在 本 书 中 ， 将 会 介绍 表 2-1 中 列 出 







































































的 编程 技巧 。 
表 2-1 本 书 讲解 的 主要 编程 技术 














0 
法 等 。 


算法 是 解决 问题 的 方法 。 现 实 中 各 种 算法 都 已 经 广为人知 了 ， 所 以 编程 
时 的 算法 也 就 是 对 这 些 技巧 的 具体 应 用 。 

有 很 多 算法 ， 如 采 单 靠 自 己 去 想 是 很 难 想 出 来 的 。 比 方 说 数组 的 排序 就 
有 很 多 的 算法 ， 如 果 我 们 对 这 些 算 法 根本 就 不 了 解 ， 那 么 要 想 做 出 高 速 
排序 程序 会 很 困难 。 算 法 和 特定 的 数据 结构 关系 很 大 。 所 以 有 一 位 计算 
机 先驱 曾经 说 过 : “程序 就 是 算法 加 数据 结构 。 交 

3 Algorithms + Data Structures = Programs ，Niklaus Wirth 车 。Wirth 是 在 1971 年 开发 了 Pascal 
编程 语言 的 计算 机 学 者 。 

设计 模式 是 指 设计 软件 时 ， 根 据 以 前 的 设计 经 验 对 设计 方法 进行 分 类 。 
算法 和 数据 结构 从 广义 上 来 说 也 是 设计 模式 的 一 种 分 类 。 有 名 的 分 类 
《设计 模式 ) 有 23 种 4 。 

4 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》，Erich Gamma 等 著 ， 机 械 工业 出 版 社 出 版 。 
开发 方法 是 指 开发 程序 时 的 设计 方法 ， 指 包括 项 目 管 理 在 内 的 整个 程序 
开发 工程 。 小 的 软 件 项 目 可 能 不 是 很 明显 ， 在 大 的 软件 项 目 中 ， 随 着 
开发 人 员 的 增加 ， 整 个 软件 工程 的 开发 方法 就 很 重要 。 


2.1.4 面 回 对 象 的 编程 方法 
下 面 ， 我 们 来 看 看 Ruby 的 基本 原理 一 一 面向 对 象 的 设计 方法 。 面 向 对 





























象 的 设计 方法 是 20 世纪 60 年 代 后 期 ， 在 诞生 于 瑞典 的 Simula 编程 语 
言 中 最 时 开始 使 用 的 。Simula 作为 一 种 模拟 语言 ， 对 于 模拟 的 物体 ， 引 
入 了 对 象 这 种 概念 。 比 如 说 对 于 交通 系统 的 模拟 ， 车 和 信号 就 变 成 了 对 
象 。 一 辆 辆 车 和 一 个 个 信号 就 是 一 个 个 对 象 ， 而 用 来 定义 这 些 车 和 信和 号 


的 ， 就 是 类 。 


此 后 ， 从 20 世纪 70 年 代 到 80 年 代 前 期 美国 施乐 公司 的 帕 洛 阿尔 托 
研究 中 心 (PARC) 开发 了 Smalltalk 编程 语言 。 从 Smalltalk-72、 
Smalltalk-78 到 Smalltalk-80， 他 们 开发 完成 了 整个 Smalltalk 系列 。 
Smalltalk 编程 语言 对 近代 面 同 对 象 编程 语言 影响 很 大 ， 所 以 把 它 称 为 面 
问 对 象 编程 语言 之 母 也 不 为 过 。 


在 这 之 后 ， 受 Simula 影响 比较 大 的 有 C++ 编程 语言 ， 再 以 后 还 有 Java 
编程 语言 ， 而 现在 大 多 数 编程 语言 使 用 的 都 是 面 加 对象 的 设计 方法 。 


如 今 ， 面 问 对 象 的 设计 思想 已 经 相当 重要 且 深 入 人 心 了 ， 以 后 它 的 地 位 
和 重要 性 也 应 该 不 会 降低 。 所 以 在 学 习 编 程 语言 时 ， 对 面 癌 对 象 设计 思 
想 的 理解 就 非常 重要 。 


但 是 ， 很 多 程序 员 沉 得 面 问 对象 的 设计 思想 很 难 ， 不 容易 理解 ， 所 以 在 
本 章 中 ， 我 们 将 详细 介绍 一 下 面 问 对 象 的 设计 方法 。 


2.1.5 面向 对 象 的 难点 


面 回 对 象 的 难点 在 于 ， 虽 然 有 关于 面 癌 对象 的 次 明和 例子 ， 但 是 面 癌 对 
象 具体 的 实现 方法 却 不 是 很 明确 。 


面 问 对 象 这 个 词 本 身 是 很 抽象 的 ， 越 抽象 的 东西 ， 人 们 就 越 难 理解 。 并 
人 
I 理解 。 


这 里 ， 我 们 暂时 回避 一 下 “面向 对 象 " 的 整体 概念 这 一 问题 ， 首 先 集中 说 
明 "面向 对 象 编程 ”。 


至 于 “好 像 是 昕 明白 了 ， 还 是 不 会 使 * 这 一 点 ， 原 因 可 能 在 于 平易 的 比喻 
和 实际 编程 之 间 差 距 太 大 。 这 里 ， 我 们 选择 Ruby 这 种 简单 易 用 的 面 回 
对 象 编程 语言 ， 硕 望 能 够 拉 近 比喻 和 实例 之 间 的 距离 。 









































另外 很 重要 的 一 点 ， 面 问 对 象 编程 语言 有 很 多 种 类 ， 也 有 很 多 技巧 。 一 
下 子 全 部 理解 是 很 困难 的 ， 我 们 分 别 加 以 说 明 。 


我 认为 面向 对 象 编程 语言 中 最 重要 的 技术 是 “多 态 性 ”"。 我 们 就 先 从 多 态 
性 说 起 吧 。 


2.1.6 多 态 性 


多 态 性 ， 英 文 是 polymorphism， 其 中 词 头 poly- 表 示 复 数 ，morph 表示 
形态 ， 加 上 词尾 -ism， 就 是 复数 形态 的 意思 ， 我 们 称 它 为 多 态 性 。 


换个 说 法 ， 多 态 束 是 可 以 把 不 同 种 类 的 东西 当做 相同 的 东西 来 处 理 。 
只 从 字面 上 分 析 不 容易 理解 ， 举 例 说 明 一 下 。 
看 看 图 2-1 所 示 的 3 个 箱子 。 每 个 箱子 都 有 不 同 的 盖子 。 一 个 是 一 般 的 


着 和子， 一 个 是 带 锁 的 盖子 ， 一 个 是 带 有 彩带 的 兰 子 。 因 为 箱子 本 吴 非 党 
昂贵 ， 所 以 每 个 箱子 都 有 专人 管理 ， 如 果 要 从 箱子 里 取 东 西 ， 要 由 管理 


人 员 去 做 。 
RE ED 
图 2-1 操作 对 象 是 3 个 箱子 ， 分 别 是 盖 着 盖子 的 箱子 、 加 了 锁 的 箱子 、 系 着 彩带 的 箱子 
打开 3 个 箱子 的 方法 都 不 同 ， 但 如 果 发 出 同样 的 打开 箱子 的 命令 ，3 个 
人 会 用 自己 的 方法 来 打开 自己 的 箱子 。 因 此 ，3 个 箱子 虽然 各 有 不 同 ， 
但 它们 同样 “都 是 箱子 ， 可 以 打开 盖子 ”。 这 就 是 多 态 性 的 本 质 。 


在 编程 中 , “打开 箱 子 ” 的 命令 ， 我 们 称 之 为 消息 ;而 打开 不 同 箱子 的 有 具 
体操 作 ， 我 们 称 之 为 方法 。 


2.1.7 具体 的 程序 
上 面 例子 的 程序 如 图 2-2 所 示 。 












































# 用 变量 box1、box2、box3 代表 3 个 箱子 























box_open(box1) # 表示 打开 箱子 
box_open(box2) # 表示 开锁 ， 打 开 箱 子 














box_open(box3) # 表示 解 开 彩带 ， 打 开 箱 子 








图 2-2 例子 的 程序 
box_open 是 打开 箱子 的 方法 ， 相 当 于 前 面 所 说 的 “管理 员 ”。 调 用 
box_open 这 个 方法 时 ， 方 法 会 根据 参数 〈 箱 子 的 种 类 ) 的 不 同 做 相应 
的 处 理 。 你 只 要 说 “打开 箱子 ”， 箱 子 就 真 的 被 打开 了 。 这 种 “根据 对 象 
不 同类 型 而 进行 适当 地 处 理 ” 就 是 多 态 性 的 基本 内 容 。 

但 只 有 图 2-2 还 不 够 。 我 们 来 考虑 一 下 如 何 定 义 box_open 这 个 方法 
吧 。 如 果 只 是 单纯 地 实现 这 个 方法 ， 也 许 就 会 写成 图 2-3 的 样子 。 


def box_open(box) 




















# 判断 box 类 型 的 方法 

if box type(box)=="plain" 
puts(" 打 开 箱 子 ") 

elsif box_ type(box)=="lock" 
puts(" 开 锁 ， 打 开 箱 子 ") 

elsif box_ type(box)=="ribbon" 


puts(" 解 开 彩 带 ， 打 开 箱 子 ") 
else 
puts(" 不 知道 打开 箱子 的 方法 ") 


end 














图 2-3 图 2-2 例子 的 box_open 方法 的 内 容 


但 是 ， 图 2-3 所 示 的 处 理 并 不 能 令 人 满意 。 如 果 要 增加 箱子 种 类 ， 这 个 
方法 中 的 代码 就 要 重 写 ， 而 且 如 果 还 有 其 他 类 似 于 box_open 、 需 要 根 
据 箱 子 类 型 来 做 不 同 处 理 的 方法 ， 那 么 需要 修改 的 地 方 就 越 来 越 多 ， 和 追 
加 箱子 种 类 就 会 变 得 非常 困难 。 


程序 修改 得 越 多 ， 出 错 的 可 能 性 也 就 越 大 ， 结 果 可 能 是 程序 本 里 根本 区 

















动 不 起 来 了 。 

像 这 样 的 修改 本 来 就 不 该 二 接 由 人 来 做 。 根 据 数 据 类 型 来 进行 合适 的 处 
理 ( 调 用 合适 的 方法 ) ， 本 来 就 应 该 是 编程 语言 这 种 工具 应 该 完成 的 

事 。 只 有 实现 了 这 一 点 ， 才 能 称 为 真正 的 多 态 。 

为 此 ， 我 们 修改 一 下 图 2-2 的 程序 ， 来 看 看 真正 的 多 态 是 如 何 工作 的 。 

图 2-4 的 程序 把 参数 移 到 了 前 头 ， 并 增加 了 一 个 “”。 这 行 代码 可 以 理解 
为 “给 前 面 式 子 的 值 发 送 open 消息 ”。 也 就 是 说 ， 它 会 “根据 前 面 式 子 的 
值 ， 调 用 合适 的 open 方法 ”。 这 了 束 是 利用 了 多 态 性 的 调用 方法 。 


# 用 变量 “box1`、`box2`、`box3” 代 表 3 站 
























































box1.open() # 表示 打开 箱子 


box2.open() # 表示 开锁 ， 打 开 箱 子 
box3.open() # 表示 解 开 彩带 ， 打 开 箱 子 




















图 2-4 图 2-2 例子 程序 的 改良 版 ， 改 变 了 参数 调用 的 方法 
图 2-4 程序 中 的 各 种 处 理 方 法 的 定义 如 图 2-5 所 示 。 


# 用 变量 box1、box2、box3 代表 3 下 
































def box1.open() 
puts(" 打 开 箱子 ") 


end 


def box2.open() 
puts ("开锁 ,打开 箱子 ") 


end 


def box3.open() 
puts(" 解 开 彩 带 ， 打 开 箱子 ") 
end 
































图 2-5 方法 的 定义 


图 2-5 的 程序 定义 了 3 种 箱子 : box1 、box2 、box3 ， 表 示 “ 打 开 箱 
A 太 二 ， 


比较 图 2-5 和 图 2-3 的 程序 可 以 看 到 ， 程 序 中 不 再 有 直 白 的 条 件 判断 ， 
非常 简单 明了 。 即 使 在 图 2-5 中 程序 增加 一 种 新 的 箱子 ， 比 如 “和 俩 问 清 
动 之 后 打开 箱子 ”， 也 不 需要 对 原来 的 程序 做 任何 修改 。 不 需要 修改 ， 
当然 也 就 没有 因 修 改 而 出 错 的 危险 。 

2.1.8 多 态 性 的 优点 

前 面 说 明了 多 态 性 ， 那 么 它 到 底 有 什么 好 处 呢 ? 


首先 ， 各 种 数据 可 以 统一 地 处 理 。 多 态 性 可 以 让 程序 只 关注 要 处理 什么 
CWhat) ， 而 不 是 怎么 去 处 理 (How) 。 


其 次 ， 是 根据 对 象 的 不 同 目 动 选 择 最 合适 的 方法 ， 而 程序 内 部 则 不 发 生 
冲突 。 不 管 调 用 有 锁 的 箱子 ， 还 是 系 独 彩 市 的 箱子 ， 它 们 都 能 自动 处 
理 ， 不 用 担心 调用 中 会 发 生 错误 ， 这 样 就 会 减轻 程序 员 的 负担 。 


再 次 ， 如 采 有 新 数据 需要 对 应 处 理 的 话 ， 通 过 简单 的 追加 束 可 以 实现 
了 ， 而 不 需要 改动 以 前 的 程序 ， 这 就 让 程序 具备 了 扩展 性 。 


综 上 所 述 ， 多 态 性 提高 了 开发 效率 ， 所 以 该 ， 面 癌 对 象 技术 最 重要 的 一 
个 概念 应 该 是 多 态 性 。 


相关 的 Ruby 语法 
人 这 里 简单 说 明 一 下 Ruby 语 
法 。 

















首先 ， 以 “大 开始 的 行 是 注释 行 ， 注 释 的 内 容 随便 是 什么 都 可 以 。 


# 这 一 行 是 注释 行 








条 件 判 断 用 if 语句 。 


























具体 的 程序 如 图 2-6 所 示 。 


if box_type(box)== "plain" 

puts(" 打 开 箱子 " 

elsif box_type(box)== "lock" 
"用 钥匙 打开 箱子 " 















































) 
ox_type(box)== "ribbon" 
' 解 开 彩带 ， 打 开 箱 子 ") 




















puts ("不 知道 打开 箱子 的 方法 ") 
end 
图 2-6 条 件 判 断 程 序 


当 第 一 个 条 件 成 立 的 时 候 ， 束 执行 第 一 段 处 理 代码 ;， 当 第 二 个 条 件 成 
立 的 时 候 ， 就 执行 第 三 段 处 理 代 码 ， 而 当 所 有 条 件 都 不 成 立 的 时 候 ， 
就 执行 else 下 面 的 处 理 代 码 。 如 果 处 理 代码 由 多 条 语句 并 列 构成 ， 
不 需要 用 “{} ” 括 起 来 ， 而 是 用 elsif 或 者 end 等 保留 词 来 分 隔 ， 这 
一 点 也 许 会 让 你 觉得 耳目 一 新 。 

在 Ruby 的 if 语句 中 ，elsif 部 分 可 以 重复 出 现任 意 次 。 当 然 也 可 
以 是 0 次， 这 时 候 elsif 是 可 以 省 略 的 。else 同样 也 是 可 以 省 略 
的 。 

对 于 "plain" 来 说 ，"" 中 的 是 字符 串 。 与 数值 一 样 ， 字 符 串 也 是 能 
直接 写 在 程序 里 的 数据 。 在 Ruby 中 ， 这 些 数据 都 是 对 象 ， 我 们 将 在 
以 后 的 章节 中 详细 说 明 。 

像 box 这 样 ， 以 小 写 英 文字 母 开头 的 是 变量 。 这 个 例子 中 己 事 先 设置 
好 了 变量 的 值 。 像 其 他 的 编程 语言 一 样 ， 变 量 的 赋值 语句 是 


用 来 初始 化 变量 。 
要 判断 两 个 表达 式 的 值 是 否 一 样 ， 可 以 使 用 “== ”运算 符 。 


请 注意 ， 在 赋值 语句 中 是 用 一 个 等 写 ， 而 判断 两 个 表达 式 是 否 相 等 则 
是 用 两 个 等 号 。 这 跟 Java 或 C 等 许多 语言 中 的 用 法 也 都 是 一 样 的 。 


后 面 有 小 括号 的 语句 是 方法 调用 。 如 



































puts(" 打 不 开 箱子 ") 


puts 方法 可 以 把 字符 串 显示 在 画面 上 。 


最 后 ， 使 用 def 语句 来 定义 方法 。 


def 方法 名 (参数 1 ,，, ) 


处 理 代 
end 





本 





2.2 ”数据 抽象 和 继承 


多 态 性 、 数 据 抽象 和 继承 被 称 为 面向 对 象 编程 的 三 原则 。 这 三 项 原则 通 
常 也 会 有 别 的 称谓 。 例 如 ， 把 多 态 性 称 为 动态 绑 定 ， 把 数据 抽象 称 为 信 
姑 隐 藏 或 封 准 ， 虽 然 名 称 不 同 ， 但 是 内 容 部 是 相同 的 。 许 多 人 认为 这 些 
原则 是 面向 对 象 程序 设计 的 重要 原则 ! 。 


1 三 原则 虽然 是 非常 重要 的 ， 但 是 在 面向 对 象 编程 中 并 不 是 必 不 可 少 的 。 比 如 有 不 支持 继承 的 
面向 对 象 编程 语言 〈JavaScript) 和 不 文 持 封装 的 面向 对 象 编程 语言 《CLOS，Common Lisp 
Object System ) 。 


2.2.1 面向 对 象 的 历史 


新 接触 面 加 对象 概念 的 人 可 能 党 得 它 难 以 理解 。 事 实 上 ， 对 于 从 事 面 加 
对 象 编程 有 15 年 以 上 的 我 来 说 ， 有 很 多 概念 还 是 觉得 很 难 理解 。 


目 20 世纪 60 年 代 末 人 至今 ， 面 同 对 象 的 思想 已 经 经 过 了 40 多 年 的 发 
展 。 狐 一 看 这 些 一 步 步 积 累 起 来 的 成 采 ， 你 可 能 会 党 得 数量 庞大 。 然 
而 ， 如 果 沿 着 面 问 对 象 的 发 展 历史 一 步 步 开 始 去 学 习 的 话 ， 那 么 看 起 来 
很 难 的 面 问 对 象 概念 ， 实 际 上 比 我 们 想象 中 的 要 简单 。 


首先 ， 我 们 来 回顾 一 下 面向 对 象 的 肥 展 历史 。 你 不 必 担 心 讲解 历史 过 程 
中 提 到 的 一 些 卫生 的 词语 ， 后 面 会 详细 说 明 。 


Simula 的 “发 明 ” 


如 前 所 述 ， 面 向 对 象 编程 思想 起 源 于 瑞典 20 世 纪 60 年 代 后 期 发 展 起 来 的 
模拟 编程 语言 Simula。 以 前 ， 表 示 模 拟 对 象 的 数据 和 实际 的 模拟 方法 是 
互相 独立 的 ， 需 要 分 别管 理 ， 编 程 时 需要 把 两 者 正确 地 结合 起 来 ， 程 序 
员 的 负担 是 很 重 的 。 因 此 ，Simula 引入 了 数据 和 处 理 数据 的 方法 目 动 结 
合 的 抽象 数据 类 型 。 随 后 ， 又 增加 了 类 和 继承 的 功能 。 其 实在 20 世 纪 60 
年 代 后 期 ， 现 代 面 向 对 象 编程 语言 的 基本 特征 Simula 都 已 经 具备 了 。 


Smalltalk 的 发 展 


Simula 的 面 问 对 象 编程 思想 被 广泛 传播 。 从 20 世纪 70 年 代 到 80 年 代 
初 ， 美 国 施乐 公司 的 由 洛 阿尔 托 研究 中 心 开 发 了 Smalltalk 编程 语言 。 













































































当时 的 开发 宗旨 是 “让 儿童 也 可 以 使 用 ”。 在 Lisp 和 LOGO 设计 思想 的 
基础 上 ，Smalltalk 又 吸取 了 Simula 的 面向 对 象 思想 ， 且 独 具 一 格 。 不 
仅 如 此 ， 它 还 有 一 个 很 好 的 图 形 用 户 界 面 。 这 个 创新 的 语言 使 得 世人 开 
始 了 解 面向 对 象 编 程 的 概念 。 


Lisp 的 发 展 


另外 ， 位 于 美国 东海 岸 的 麻 省 理工 学 院 及 其 周边 地 区 ， 用 Lisp 语言 发 
展 了 面向 对 象 的 思想 。Lisp 和 FORTRAN、COBOL 语言 一 样 ， 都 是 最 
古老 的 语言 。 与 同时 期 登场 的 其 他 语言 不 同 ，Lisp 语言 具有 非常 浓厚 的 
数学 背景 ， 所 以 它 本 身 具 有 很 强 的 扩展 功能 。 面 向 对 象 的 特性 也 是 Lisp 
所 拥有 的 。 因 此 ， 编 程 语言 规格 的 变更 、 功 能 的 扩展 和 实验 都 很 容易 进 
行 ， 由 此 产生 了 很 多 创新 的 想法 。 多 重 继承 、 混 合式 和 多 重 方法 等 ， 许 
多 重要 的 面向 对 象 的 概念 都 是 从 Lisp 的 面向 对 象 功能 中 诞生 的 。 


和 C 语 言 的 相遇 


20 世纪 80 年 代 ， 世 界 上 很 多 地 方 都 在 研究 面 癌 对 象 编程 思想 。AT&T 
公司 的 贝尔 实验 室 在 C 语言 中 退 加 了 面 癌 对 象 的 功能 ， 开 发 出 了 “C 
with Class” 编 程 语 言 。 开 发 者 是 Bjarne Stroustrup， 他 来 自 距 离 Simula 
的 起 源 地 瑞典 不 远 的 丹麦 。 在 英国 剑桥 大 学 的 时 候 ，Stroustrup 束 使 用 
Simula 语言 。 加 入 贝尔 实验 室 以 后 ， 为 了 能 够 把 C 语言 的 高 效率 和 
Simula 的 面 问 对象 功 能 结合 起 来 ， 他 开发 了 “C with Class” 编 程 语言 。 


因为 当时 Simula 的 处 理 速 度 是 非常 缓慢 的 ， 所 以 在 他 的 研究 领域 中 不 
能 使 用 。“C with Class” 语 言 就 演变 成 了 后 来 的 C++ 语言 。 从 这 些 情况 来 
看 ，C++ 是 直接 受到 了 Simula 语言 的 影响 ， 而 没有 受到 Smalltalk 多 大 
影响。 


Java 的 诞 牛 


强调 与 C 语言 兼容 的 C++ 语言 ， 能 够 写 低级 的 方法 ， 这 是 有 利 有 浆 
的 。 为 了 克服 低级 语言 的 缺点 ， 在 20 世纪 90 年 代 Java 编程 语言 应 运 
而 生 。Java 语言 放弃 了 和 C 语言 的 兼容 性 ， 并 增加 了 Lisp 语言 中 一 些 
好 的 功能 。 此 外 ， 通 过 Java 虚拟 机 《〈JVM) ，Java 程序 可 以 不 用 重新 
编译 而 在 所 有 操作 系统 中 运行 。 


现在 ，Java 作为 在 20 世纪 90 年 代 诞 生 的 最 成 功 的 语言 ， 被 全 世界 广泛 























应 用 。 


面 回 对 象 编程 方法 和 编程 语言 一 样 在 不 断 地 演变 发 展 。 到 了 20 世纪 90 
年 代 ， 面 向 对 象 的 方法 在 软件 设计 和 分 析 等 软件 开发 的 上 层 领域 中 流行 
起 来 。1994 年 ， 当 时 主要 的 面向 对 象 分 析 和 设计 方法 Booth、 

OMT (Object Modeling Technique) 以 及 OOSE (Object Oriented 
Software Engineering) 的 发 明 人 Grady Booch、Jim Rumbaugh 和 Ivar 
Jacobson 合作 设计 了 UML (Unified Modeling Language) 。UML 是 用 
来 描述 通过 面向 对 象 方法 设计 的 软件 模型 的 图 示 方 法 ， 也 是 利用 这 种 记 
法 进行 分 析 和 设计 的 一 种 方法 论 。 


UML 提供 了 很 多 设计 局 可 徘 性 软件 的 面向 对 象 设计 方法 。 但 是 ，UML 
整体 上 很 复杂 ， 用 到 的 概念 很 多 ， 会 让 初学 者 觉得 很 难 掌握 。 

面向 对 象 的 基本 概念 的 建立 ， 催 生 了 各 种 编程 语言 。 

2.2.2 ”复杂 性 是 面 问 对 象 的 敌人 

我 们 再 回 到 面 癌 对 象 的 重要 原则 ， 来 了 解 真 正 的 面 癌 对 象 编程 。 


软件 开发 的 最 大 敌人 是 复杂 性 。 人 类 的 大 脑 无 法 做 太 复 杂 的 处 理 ， 记 忆 
力 和 理解 力也 是 有 限 的 。 


计算 机 上 运行 的 软件 却 没有 这 样 的 限制 ， 无 论 多 么 复杂 的 计算 机 软件 ， 
无 论 有 多 少数 据 ， 无 论 需要 多 长 时 间 ， 计 算 机 都 可 以 处 理 。 随 着 越 来 越 
I 
YY b 未 


虽然 计算 机 的 性 能 年 年 在 提高 ， 但 它 的 处 理 能 力 终究 是 有 限 的 ， 而 人 类 
理解 力 的 局 限 性 给 软件 生产 力 带 来 的 限制 则 更 大 。 在 计算 机 性 能 这 么 噩 
的 今天 ， 人 们 为 了 找到 迅速 开发 大 规模 复杂 软件 的 方法 ， 哪 但 牺牲 一 些 
性 能 也 在 所 不 惜 。 


2.2.3 结构 化 编程 
最 初 对 这 种 复杂 的 软件 开发 提出 挑战 的 是 “结构 化 编程 >?。 结 构 化 编程 的 


基本 思想 是 有 序 地 控制 流程 ， 即 把 程序 的 执行 顺序 限制 为 顺序 、 分 文 和 
循环 这 3 种 ， 把 共通 的 处 理 归结 为 例 程 ( 见 图 2-7〉。 
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图 2-7 顺序、 分支 和 循环 的 处 理 方法 


在 结构 化 编程 出 现 之 前 ， 可 以 用 goto 语句 来 控制 程序 的 流程 ， 执 行 流 
可 以 转移 到 任何 地 方 。 而 结构 化 编程 用 如 上 文 所 述 的 3 种 语句 控制 程序 
的 流程 。 这 样 可 以 降低 程序 流程 的 复杂 性 ， 此 外 ， 还 引入 了 较为 抽象 的 
处 理 块 ( 例 程 ) 的 概念 ， 也 就 是 把 基本 上 相同 的 处 理 抽象 成 例 程 ， 其 中 
不 同 的 地 方 由 外 部 传递 进来 的 参数 来 对 应 。 
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通过 限制 大 大 降低 了 程序 的 目 由 度 ， 减 少 了 各 种 组 合 ， 使 得 程序 不 全 于 
太 过 复杂 。 但 是 如 宋 由 于 降低 了 程序 的 目 由 上 度 而 导致 程序 的 实现 能 力 低 
下 ， 那 是 我 们 所 不 愿意 看 到 的 。 而 结构 化 编程 的 顺序 、 分 文 和 循环 可 以 
实现 一 切 算 法 ， 虽 然 降低 了 程序 的 复杂 性 和 灵活 性 ， 但 是 程序 的 实现 能 
力 并 没有 降低 。 

抽象 化 的 目的 是 我 们 只 需要 知道 过 程 的 名 字 ， 而 并 不 需要 知道 过 程 的 内 
部 细节 ， 因 此 它 也 被 称 为 " 黑 盒 化 "。 我 们 只 需要 知道 黑 盒 子 ” 的 输入 和 
输出 ， 而 过 程 的 细节 是 隐藏 的 “ 。 


2 计算 器 是 黑 盒 子 的 一 个 例子 。 输 入 数字 后 ， 计 算 结 果 在 液晶 屏 上 显示 出 来 ， 而 内 部 是 怎样 计 



























































算 的 我 们 并 不 知道 。 也 有 可 能 是 里 面 的 小 人 在 打算 盘 哦 。 


例如 ， 如 果 你 知道 了 例 程 的 输入 和 输出 ， 那 么 即使 不 知道 处 理 的 内 部 细 
节 也 可 以 利用 这 个 例 程 。 建 立 一 个 由 黑 盒子 组 合 起 来 的 系统 ， 复 杂 的 结 
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如 果 把 黑 盒 子 内 的 处 理 也 考虑 上 ， 整 个 系统 的 复杂 性 并 没有 改变 。 但 是 
如 果 不 考虑 黑 盒 子 内 部 的 处 理 ， 系 统 复 淋 性 就 可 以 降低 到 人 类 的 可 控 范 
围 内 。 此 外 ， 黑 盒子 内 部 的 处 理 无 论 怎么 变化 ， 如 宁 输 入 和 输出 不 发 生 
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针对 程序 控制 流 的 复杂 问题 ， 结 构 化 编程 采用 了 限制 和 抽象 化 的 武器 解 
决 回 题 。 结 果 证 明 ， 结 构 化 程序 设计 是 成 功 的 ， 并 且 这 种 方法 已 经 有 了 
稳固 的 基础 。 现 在 几乎 所 有 的 编程 语言 都 支持 结构 化 编程 ， 结 构 化 编程 
己 经 成 为 了 编程 的 基本 种 识 。 


2.2.4 数据 抽象 化 


然而 ， 程 序 里 面 不 仅 包 括 控 制 结构 ， 还 包括 要 处 理 的 数据 。 结 构 化 编程 
虽然 降低 了 程序 流程 的 复杂 性 ， 但 是 随 着 处 理 数 据 的 增加 ， 程 序 的 复杂 
性 也 会 上 升 。 面 向 对 象 编程 就 是 作为 对 抗 数据 复杂 性 的 手段 出 现 的 。 


前 面 已 经 介绍 过 了 ， 世 界 上 第 一 个 面 辐 对 象 的 编程 语言 是 Simula。 随 着 
仿真 处 理 的 数据 类 型 越 来 越 多 ， 分 别管 理 程序 处 理 内 容 和 处 理 数据 对 象 
所 市 来 的 复 林 性 也 越 来 越 蜗 。 为 了 得 到 正确 的 结果 ， 必 须 保持 处 理 和 数 
据 的 一 致 性 ， 这 在 结构 化 编程 中 古 非常 困难 的 。 解 决 这 一 问题 的 方案 囊 
是 数据 抽象 技术 。 

数据 抽象 是 数据 和 处 理 方法 的 结合 。 对 数据 内 容 的 处 理 和 操作 ， 必 须 通 
过 事先 定义 好 的 方法 来 进行 。 数 据 和 处 理 方法 结合 起 来 成 为 了 黑 例子 。 
举 一 个 栈 的 例子 。 栈 是 先入 后 出 的 数据 存储 结构 3 。 比 如 往 快 餐 托盘 中 
登 加 地 操 放 食品 ( 见 图 2-8) 。 栈 只 有 两 种 操作 方法 : 入 栈 (push) ， 
向 栈 中 放 入 数据 ; 出 栈 (pop) ， 把 最 后 放 入 的 数据 拿 出 来 。 

3 队列 是 和 栈 相似 的 数据 结构 ， 是 先入 先 出 的 。 

















栈 的 顶端 


术 
图 2-8” 栈 的 构造 


我 们 用 Ruby 来 写 这 个 栈 “ 。 图 2-9 中 使 用 了 抽象 的 数据 结构 ， 栈 的 操作 
只 有 push 和 pop 。 别 的 方法 是 无 法 访问 栈 内 数据 的 。 图 2-10 中 则 没有 
使 用 抽象 的 数据 结构 ， 而 是 用 数组 索引 来 实现 栈 的 操作 。 和 图 2-9 相 
比 ， 哪 个 更 简单 是 显而易见 的 。 


4 在 标准 的 Ruby 中 没有 定义 栈 (stack〉 这 种 数据 结构 。 如 果 要 执行 图 2-9 所 示 的 程序 ， 那 么 图 
2-11 所 示 的 stack 定义 是 必要 的 。 图 2-9 所 示 只 是 作为 一 个 例子 来 说 明 抽 象 数据 的 操作 方法 。 



























































# 用 Stack.new 生成 新 的 栈 
stack = Stack.new 

# 对 stack 进行 push 操作 
stack.push(5) 
stack.push(9) 





# 用 stack 的 pop 方法 取出 数据 
puts stack.pop() # 显 示 9 
puts stack.pop() # 显 示 5 











图 2-9 用 Ruby 写 的 栈 的 操作 





# 用 数组 实现 栈 的 操作 
stack = [] 

# 数组 的 先头 位 置 

sp= 0 








stack[sp] = 5 
sp += 1 
stack[sp] 
sp += 1 


ll 
\D 


sp -= 工 
puts stack[sp] 
sp -= 1 


puts stack[sp] 


图 2-10 用 数组 实现 图 2-9 的 程序 


图 2-9 的 程序 有 几 点 优 于 图 2-10 的 程序 。 第 一 ， 图 2-10 的 程序 暴露 

了 “数组 和 下 标 ” 这 一 内 部 构造 ， 而 图 2-9 则 把 内 部 构造 隐藏 到 了 Stack 
这 一 数据 结构 里 。 利 用 图 2-9 的 方法 ， 使 用 栈 的 人 并 不 需要 关心 栈 是 如 
何 实现 的 ， 即 使 将 来 因为 什么 事情 而 改变 了 栈 的 内 部 实现 方式 ， 也 不 需 
要 对 使 用 栈 的 程序 做 任何 修改 。 


在 这 一 点 上 ， 图 2-10 的 程序 就 不 一 样 了 。 如 果 其 内 部 实现 发 生变 化 ， 
也 必须 对 自己 的 程序 进行 相应 的 修改 。 因 为 所 有 利用 栈 的 地 方 都 需要 修 
改 ， 程 序 规模 越 大 ， 修 改 的 工作 量 也 就 越 大 。 所 以 有 时 候 即 使 明知 道 能 
够 改善 程序 ， 也 会 因为 工作 量 太 大 而 不 愿意 改变 栈 的 实现 方式 。“ 利 于 
变化 ?是 抽象 数据 的 巨大 优点 。 


另外 一 点 是 图 2-9 所 示 的 方法 很 容易 理解 。 比 如 数据 的 push 操作 ， 在 
图 2-9 中 是 : 


stack.push(5) 


在 图 2-10 中 是 : 


stack[sp]=5 
sp += 1 


图 2-9 中 可 以 直接 表现 push 这 个 操作 。 对 数据 进行 操作 的 一 方 ， 并 不 
需要 知道 图 2-10 中 的 处 理 细节 ， 而 只 对 “要 做 什么 " 感 兴趣 。 所 以 隐藏 
了 处 理 细 市 的 程序 会 变 得 更 加 明确 ， 实 现 目的 也 更 清晰 。 


不 仅 是 操作 方法 容易 理解 ， 抽 象 数 据 也 是 能 够 对 特定 的 操作 产生 反应 的 
0 








有 了 数据 抽象 ， 程 序 处 理 的 数据 就 不 再 是 单纯 的 数值 或 文字 这 些 概念 性 
的 东西 ， 而 变 成 了 人 脑 容 易 想 象 的 具体 事物 。 而 代码 的 “抽象 化 * 则 是 把 
想象 的 过 程 < 具体 化 "了 。 这 种 智能 数据 可 以 模拟 现实 世界 中 的 实体 ， 因 
而 被 称 作 “对 象 ”， 面 问 对 象 编 程 也 由 此 得 名 。 


2.2.5， 雏形 


出 现在 程序 中 的 对 象 ， 通 党 具有 相同 的 动作 。 以 交通 仿真 程序 为 例 ， 程 
序 中 有 表示 车 和 信和 号 的 对 象 。 虽 然 同 样 的 对 象 具 有 相同 的 性 质 ， 但 是 位 
置 、 闫 色 等 状态 各 有 不 同 。 


从 抽象 的 原则 来 说 ， 多 个 相同 事物 出 现时 ， 应 该 组 合 在 一 起 。 这 就 是 
DRY 原则 〈 即 Don't Repeat Yourself) 。 


我 们 已 经 看 到 ， 程 序 的 重复 是 一 切 问题 的 根源 。 重 复 的 程序 在 需要 修改 
的 时 候 ， 所 涉及 的 范围 就 会 更 三 ， 费 用 也 就 更 高 。 当 多 个 重复 的 地 方 都 
需要 修改 时 ， 哪 怕 古 漏 掉 其 中 之 一 ， 程 序 也 将 无 法 正常 工作 。 所 以 重复 
降低 了 程 友 的 可 靠 性 。 


进一步 说 ， 重 复 的 程序 是 元 余 的 。 人 们 解读 程序 、 理 解 程序 意图 的 成 本 
也 会 增加 。 让 我 们 再 看 看 代码 重复 的 图 2-10 和 没有 代码 重复 的 图 2-9， 
显然 图 2-9 的 程序 更 容易 理解 。 请 记 住 ， 计 算 机 是 不 管 程序 是 否 难 以 阅 
读 ， 是 侣 有 重复 的 。 然 而 ， 开 发 人 员 要 阅读 和 理解 大 量 的 程序 ， 所 以 程 
序 的 可 读 性 直接 关系 到 生产 力 。 重 复 风 长 的 程序 会 降低 生产 力 。 复 制 和 
类 贴 程序 会 导致 重复 ， 应 该 尽量 避免 。 


让 我 们 再 回 到 对 象 的 话题 上 。 同 样 的 对 象 大 量 存在 的 时 候 ， 为 了 避免 重 
复 ， 可 以 采用 两 种 方法 来 管理 对 象 。 


一 种 是 原型 。 用 原始 对 象 的 副本 来 作为 新 的 相同 的 对 象 。Self、Io 等 编 
程 语言 采用 了 原型 。 有 名 的 编程 语言 用 原型 的 比较 少 ， 很 意外 的 是 ， 
JavaScript 也 是 用 的 原型 。 


另外 一 种 是 模板 。 比 方 说 我 们 要 浇注 东西 的 时 候 ， 往 模板 里 注入 液体 材 
料 就 能 浇注 出 相同 的 东西 。 这 种 模板 在 面向 对 象 编程 语言 中 称 为 类 
《class) 。 同 样 类 型 的 对 象 分 别 属于 同样 的 类 ， 操 作 方 法 和 属性 可 以 共 
享 。 





















































跟 原 型 不 同 ， 面 同 对 象 编程 语言 的 类 和 对 象 有 明显 区 别 ， 就 像 做 点 心 的 
模具 和 点 心 有 区 别 一 样 ， 整 数 的 类 和 1 这 个 对 象 、 狗 类 和 名 字 是 
poochy 这 条 狗 也 都 是 有 区 别 的 。 为 了 清晰 地 表明 类 和 对 象 的 不 同 ， 对 象 
J Ginstance) 。 叫 法 虽 有 不 同 ， 但 实例 和 对 象 是 一 样 


在 Ruby 面向 对 象 编 程 语 言 ? 中 ， 类 用 关键 字 class 来 声明 。 图 2-9 中 
的 栈 ， 就 是 Stack 类 。Stack 类 的 定义 如 图 2-11 所 示 。 


5 Ruby 也 可 以 用 于 原型 (prototype) 面 问 对 象 编程 。 





























class Stack 
def initialize 
@stack = [] 
@sp=0 
end 


def push(value) 
@stack[@sp] = value 
@sp += 1 

end 


def pop 
return nil if @sp == 
@sp -= 
return @stack[@sp] 
end 
end 





图 2-11 Stack 类 的 实现 


class 后 面 是 类 名 。 在 图 2-11 中 ，class 后 面 就 是 Stack 。Ruby 规定 
类 名 称 的 第 一 个 字母 必须 大 写 。 类 定义 的 最 后 用 end 。 在 Stack 这 个 
类 中 ， 定 义 了 initialize 、push 、pop 这 三 个 方法 。 

图 2-9 的 程序 第 二 行 调 用 了 initialize 这 个 初始 化 方法 。 每 次 生成 
Stack 对 象 的 时 候 ， 都 要 调用 initialize 这 个 初始 化 方法 。 


stack = Stack.new 


在 图 2-11 的 初始 化 方法 中 ，@stack (实际 保存 栈 数据 的 数组 ) 和 @sp 
(数组 下 标 ) 这 两 个 变量 被 初始 化 。 在 Ruby 中 以 “@” 开 头 的 变量 用 来 
保存 每 个 对 象 中 分 别 独 立 存在 的 值 ， 也 称 为 实例 变量 。 如 果 你 创建 了 多 
个 栈 对 象 ， 那 么 每 个 对 象 里 面 都 分 别 有 上 自己 独立 的 @stack 和 @sp 这 两 


个 变量 。 


push 和 pop 是 操作 栈 的 方法 。 在 图 2-10 中 不 过 是 罗列 了 对 栈 的 操作 步 


又 妥 了 


， 的 initialize 是 对 类 定义 的 操作 对 象 的 内 部 数据 进行 初始 化 


为 了 简化 说 明 ， 图 2-11 的 例子 中 没有 检查 数值 的 范围 。 事 实 上 ， 程 序 
中 需要 检查 下 标 是 否 为 负 值 等 。 


2.2.6 ” 找 出 相似 的 部 分 来 继承 


随 着 软件 规模 的 扩大 ， 用 到 的 类 的 个 数 也 随 之 增加 ， 其 中 也 会 有 很 多 性 
质 相似 的 类 。 这 就 违背 了 我 们 之 前 强调 多 次 的 DRY 原则 。 程 序 会 变 得 
重复 而 且 不 容易 理解 。 修 改 程序 的 代价 也 会 变 高 ， 生 产 力 则 会 降低 。 所 
以 ， 如 果 有 把 这 些 相似 的 部 分 汇总 到 一 起 的 方法 融 好 了 。 


继承 就 是 这 种 方法 。 有 具体 说 来 ， 继 承 就 是 在 保持 既 有 类 的 性 质 的 基础 上 
而 生成 新 类 的 方法 。 原 来 的 类 称 为 父 类 ， 新 生成 的 类 称 为 子 类 。 子 类 继 
承 父 类 所 有 的 方法 ， 如 果 需 要 也 可 以 增加 新 的 方法 。 子 类 也 可 以 根据 需 
要 重 写 从 父 类 继承 的 方法 。 


图 2-12 演示 了 FixedStack 这 个 类 ， 它 继承 了 图 2-11 中 的 Stack 类 。 
类 名 后 面 的 “x<Stack ” 指 的 是 父 类 。 它 说 明了 FixedStack 是 Stack 的 
子 类 ,继承 了 Stack 类 的 方法 和 属性 。 


























class FixedStack < Stack 
def initialize(limit) 
super() 
@limit = limit 
end 


def push(val) 
if @sp >= @limit 
puts "over limit" 


return 
end 
super(val) 
end 


def top 
return @stack[-1] 
end 
end 





图 2-12 用 类 来 继承 图 2-11 中 类 的 例子 





FixedSstack 类 重 写 了 initialize 和 push 这 两 个 方法 。 这 两 个 方法 
都 调用 了 super 方法 ， 这 表明 在 子 类 的 方法 中 也 调用 了 父 类 的 具有 相 
同名 字 的 方法 。 比 如 在 FixedStack 类 的 initialize 方法 中 也 调用 父 
类 Stack 的 initialize 方法 。 利 用 这 种 方式 ， 我 们 可 以 只 改变 子 类 
方法 的 动作 ， 而 不 会 对 父 类 方法 产生 任何 影响 。 


initialize 方法 在 对 象 初始 化 时 被 调用 。 如 果 像 下 面 的 程序 一 样 ， 在 
调用 initialize 方法 时 传 入 参数 10， 那 么 栈 对 象 的 实例 变量 @1imit 
就 会 被 设置 为 10， 它 是 栈 中 元 素 个 数 的 上 限 。 


stack = Fixedstack.new(16) 


在 图 2-12 中 ， 程 序 末尾 人 退 加 了 并 不 把 栈 顶 元 素 弹 出 栈 而 只 是 引用 栈 顶 
4 top 。top 在 父 类 中 并 没有 定义 ， 这 是 一 个 在 子 类 中 追加 方 
法 的 例子 。 


像 图 2-12 这 样 ， 利 用 现 有 的 类 派生 新 类 的 方法 称 为 “差分 编程 

法 ”(difference programming) 。 通 过 抽象 把 共通 的 部 分 提取 出 来 生成 父 
类 ， 与 利用 已 有 的 类 来 生成 新 类 ， 是 同一 方法 的 两 种 不 同 表 现形 式 。 前 
者 称 为 目 底 和 同上 法 ， 后 者 称 为 目 顶 癌 下 法 。 


Ruby 跟 多 数 编程 语言 一 样 ， 一 个 子 类 只 能 有 一 个 父 类 ， 这 称 为 单一 继 
， 从 目 项 向 下 的 方法 来 看 ， 通 过 扩展 一 个 类 来 生成 新 的 类 也 是 很 自 
然 的 。 





























但 是 ， 从 用 
一 个 父 类 的 限制 是 太 严 格 了 。 其 实 ， 在 C++、Lisp 等 
子 类 可 以 有 多 个 父 类 ， 这 称 为 “多 重 继承 ”。 





2.3 多 重 继承 的 缺点 


上 一 节 讲 解 了 面 加 对象 编 程 的 三 大 原则 《多 态 性 、 数 据 抽 象 和 继承 ) 中 
的 继承 。 如 前 所 述 ， 人 们 一 次 能 够 把 握 并 记忆 的 概念 是 有 限 的 ， 为 解决 
这 一 问题 ， 就 需要 用 到 抽出 类 中 相似 部 分 的 方法 《继承 ) 。 继 承 是 随 看 
程序 的 结构 化 和 抽象 化 自然 进化 而 来 的 一 种 方式 。 


但 最 后 一 句 话 严格 来 说 并 不 完全 正确 。 结 构 化 和 抽象 化 ， 意 味 着 把 共通 
部 分 提取 出 来 生成 父 类 的 自 底 向 上 的 方法 。 如 果 继 承 是 这 样 诞生 的 话 ， 
那么 最 初 ， 有 多 个 父 类 的 多 重 继承 - 就 会 成 为 主流 。 


1 单一 继承 (single inheritance) 是 指 只 能 有 一 个 父 类 (super class) 的 继承 ， 也 称 为 单纯 继承 。 
有 多 个 父 类 的 继承 称 为 多 重 继 承 (multiple inheritance) 。 


但 实际 上 ， 最 初 引入 继承 的 Simula 编程 语言 ， 只 提供 单一 继承 。 同 
样 ， 在 随后 的 很 多 面 同 对 象 编程 语言 中 也 都 是 这 样 的 。 因 此 我 认为 ， 继 
承 的 原本 目的 实际 上 是 逐步 细 化 。 


2.3.1 ”为 什么 需要 多 重 继承 


单一 继承 只 能 有 一 个 父 类 。 有 时 候 ， 大 家 会 觉得 这 样 的 制约 过 于 严格 
了 。 在 现实 中 ， 一 个 公司 职员 同时 也 可 能 是 一 位 父 杀 ， 一 个 程序 员 同 时 
也 可 能 是 一 位 作家 。 


正如 上 一 节 中 说 明 的 ， 如 果 把 继承 作为 抽 离 出 程序 的 共通 部 分 的 一 个 抽 
象 化 手段 来 考虑 ， 那 么 从 一 个 类 中 抽象 化 〈 抽 出 ) 的 部 分 只 能 有 一 ， 这 
个 假定 会 给 编程 带 来 很 大 的 限制 。 因 此 ， 多 重 继承 的 思想 就 这 样 产生 
了 。 单 一 继承 和 多 重 继承 的 区 别 仅仅 是 父 类 的 数量 不 同 。 多 重 继承 完全 
古 单一 继承 的 超 集 ， 可 以 简单 地 看 做 是 单一 继承 的 一 个 自然 延伸 (图 2- 
133.s 






































海洋 生物 ) ”哺乳 类 








图 2-13 ”单一 继承 和 多 重 继承 的 区 别 。 在 多 重 继承 中 ， 每 个 类 可 以 有 多 个 父 类 


可 以 使 用 多 重 继承 的 编程 语言 ， 不 受 单 一 继承 的 不 自然 的 限制 。 例 如 ， 
只 提供 单一 继承 的 Smalltalk 语言 ， 它 的 类 库 因 为 单一 继承 而 显得 很 不 
自然 。 
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Smalltalk 语 言 中 定义 输入 输出 的 Stream 类 有 3 个 子 类 。 其 

中 ，ReadStream 是 输入 类 ，WriteStreanm 是 输出 

类 ，ReadWriteStream 是 输入 输出 类 。ReadWriteSstream 具有 
ReadStream 和 WriteSstream 两 个 类 的 功能 ， 但 是 由 于 Smalltalk 是 单 
一 继承 的 ， 所 以 ReadWriteStreanm 不 能 同时 从 这 两 个 类 继承 。 


结果 是 ReadNriteSstream 继承 了 WriteStream 这 个 类 ， 然 后 再 把 
ReadStreanm 的 程序 复制 过 来 ， 从 而 实现 ReadStream 的 功能 (参见 图 
2-14) 。 从 程序 维护 的 观点 来 看 ， 程 序 复制 是 必须 禁止 的 。 由 于 单一 继 
承 的 限制 而 导致 的 程序 复制 是 我 们 不 愿意 看 到 的 。 
















ReadStream WriteSstream 


ReadWriteStream 


图 2-14 单一 继承 的 问题 。ReadWriteStream 只 能 有 一 个 父 类 ， 即 
Writestream ， 而 不 能 同时 继承 ReadStream 


从 另外 的 角度 来 看 ， 如 果 有 多 重 继承 的 话 ， 那 么 很 自然 地 从 
ReadStream 和 WriteSstreanm 继承 就 可 以 生成 ReadWritestream ( 参 
见 图 2-15) 。 





WriteStream 





ReadStream 





ReadWriteStream 
图 2-15 用 多 重 继承 的 解决 方法 。 和 图 2-14 不 同 ，ReadWriteStream 类 可 以 继承 两 个 父 类 

2.3.2 ”多重 继 承 和 单一 继承 不 可 分 离 

经 过 对 多 重 继 承 和 单一 继承 这 样 一 比较 ， 单 一 继承 的 特点 就 很 明显 了 。 
。 继承 关系 单纯 

单一 继承 的 继承 关系 是 单纯 的 树 结构 ， 这 样 有 利 有 次。 类 之 间 的 关系 单 

纯 就 不 会 发 生 混 乱 ， 实 现 起 来 也 比较 简单 。 但 是 ， 如 刚才 的 Smalltalk 

的 Stream 一 样 ， 不 能 通过 继承 关系 来 共享 程序 代码 ， 导 致 了 最 后 要 复 

制程 序 。 


对 需要 指定 算式 和 变量 类 型 的 Java 这 样 的 静态 编程 语言 来 说 ， 单 一 继 
藉 还 有 一 个 缺点 ， 我 们 将 在 后 面 说 明 。 


多 重 继承 的 特点 正好 相反 。 多 重 继承 有 以 下 两 个 优点 : 
。 很 自然 地 做 到 了 单一 继承 的 扩展 ; 
。 可 以 继承 多 个 类 的 功能 。 


单一 继承 可 以 实现 的 功能 ， 多 重 继 承 都 可 以 实现 。 但 是 ， 类 之 间 的 关系 
会 变 得 复杂 。 这 是 多 重 继承 的 一 个 缺点 。 


2.3.3 goto 语句 和 多 重 继承 比较 相似 


前 面 我 们 讲 到 了 结构 化 编程 ， 说 明了 与 其 用 goto 语句 在 程序 中 跳 来 跳 
去 ， 还 不 如 用 分 支 或 者 循环 来 控制 程序 的 流程 。 分 文 和 循环 可 以 用 




















goto 语句 来 实现 ， 单 纯 的 分 文 和 循环 组 合 起 来 不 能 直接 实现 的 控制 也 
可 以 用 goto 语句 来 实现 。goto 语句 具有 更 强 的 控制 力 。 


goto 语句 的 控制 能 力 虽 然 很 强 ， 但 是 我 们 也 不 推荐 使 用 。 因 为 用 goto 
语句 的 程序 不 是 一 目 了 然 的， 结构 不 容易 理解 。 这 样 的 流程 复杂 的 程序 
被 称 为 “意大利 面条 程序 ”。 


多 重 继承 也 存在 同样 的 问题 。 多 重 继承 是 单一 继承 的 扩展 ， 单 一 继承 可 
以 实现 的 功能 它 都 可 以 实现 。 用 单一 继承 不 能 实现 的 功能 ， 多 重 继承 也 
可 以 实现 。 


但 是 ， 如 果 人 允许 从 多 个 类 继承 ， 类 的 关系 就 会 变 得 复杂 。 哪 个 类 继承 了 
0 
易 判 明 。 


这 样 混 合 起 来 发 展 的 继承 称 为 "意大利 面条 继承 ”。 当 然 也 不 能 说 所 有 的 
多 重 继承 都 是 意大利 面条 继承 ， 但 是 使 用 时 格外 小 必 是 必要 的 。 多 重 继 
承 会 导致 下 列 3 个 问题 。 


结构 复杂 化 


如 果 是 单一 继承 ， 一 个 类 的 父 类 是 什么 ， 父 类 的 父 类 又 是 什么 ， 都 
很 明确 ， 因 为 只 有 单一 的 继承 关系 。 然 而 如 果 是 多 重 继承 的 话 ， 一 
人 
很 复杂 了 。 


优先 顺序 模糊 


上 共有 复杂 的 父 类 的 类 ， 它 们 的 优先 关系 一 下 子 很 难 辨 认 清 楚 。 比 如 
图 2-16 中 的 层次 关系 ，D 继承 父 类 方法 的 顺序 是 D、B、A、C、 
Object 还 是 D、B、C、A、Object， 或 者 是 其 他 的 顺序 ， 很 不 明 
确 。 确 定 不 了 究竟 是 哪 一 个 。 相 比 之 下 ， 单 一 继承 中 类 的 优先 顺序 
是 明确 了 然 的 。 








Object |) 











图 2-16 多 重 继承 的 优先 顺序 ， 方 法 调用 的 优先 顺序 不 明确 
。 功能 冲突 


因为 多 重 继承 有 多 个 父 类 ， 所 以 当 不 同 父 类 中 有 相同 的 方法 时 就 会 
产生 冲突 。 比 如 在 图 2-16 中 ， 当 类 B 和 类 C 有 相同 的 方法 时 ，D 
继承 的 是 哪个 方法 就 不 明确 了 ， 因 为 存在 两 种 可 能 性 。 


2.3.4 ”解决 多 重 继 承 的 问题 


上 面 说 明了 多 重 继承 的 问题 。 但 是 像 Smalltalk 的 Stream 的 例子 一 样 ， 
如 果 没 有 多 重 继承 的 话 ， 有 些 问 题 还 真是 难以 解决 。 


再 进一步 看 ， 继 承 作为 抽象 化 的 手段 ， 是 需要 实现 多 重 继承 功能 的 。 在 
人 
就 太 多 了 。 


既 想 利用 多 重 继承 的 优点 ， 又 要 回避 它 可 能 会 融 来 的 问题 ， 那 我 们 融 需 
要 寻找 解决 问题 的 方法 。 结 构 化 编程 解决 goto 问题 的 原则 是 ， 用 3 种 
有 限制 功能 的 控制 语句 来 代 丛 自由 度 太 高 的 goto 语句 。 这 3 种 控制 语 
句 虽 然 有 限制 ， 但 是 用 它们 的 组 合 可 以 实现 任意 算法 。 像 这 样 引 入 有 限 
制 的 多 重 继承 应 该 是 一 个 好 的 方法 。 


没 错 ， 受 限制 的 多 重 继承 ， 这 个 解决 或 者 改善 多 重 继承 问题 的 方法 出 现 
了 ， 它 在 Java 编程 语言 中 被 称 为 接口 〈interface) ， 在 Lisp 或 者 Ruby 
中 是 Mix-in。 下 面 我 们 看 看 这 些 功 能 是 如 何 克 服 上 述 缺 点 的 。 














2.3.5 ”静态 语言 和 动态 语言 的 区 别 
我 们 从 Java 的 接口 开始 说 起 。 


在 说 明 接 口 之 前 ， 首 先 讲 一 下 像 Java 这 样 的 面向 对 象 编 程 语言 和 多 重 

继承 。 

从 大 的 方面 来 看 ， 编 程 语言 可 以 分 为 静态 语言 和 动态 语言 两 种 。 像 Java 
这 样 规定 变量 和 算式 类 型 的 语言 称 为 静态 语言 。 

在 静态 语言 中 ， 不 能 给 变量 赋 不 同类 型 的 值 ， 因 为 那样 会 导致 编译 错 

误 。 由 于 在 编译 时 已 经 排除 了 类 型 不 匹配 的 错误 ， 所 以 在 执行 时 就 不 会 
再 发 生 这 种 错误 了 。 不 通过 执行 束 可 以 发 现 类 型 不 匹配 这 样 的 错误 是 静 
态 语 言 鸭 二 个 优 应 s 


String str; 














str = “abc ; // 没 有 问题 








str = 2; // 编 译 错误 




















面 癌 对 象 编 程 语言 大 都 用 类 来 指定 变量 类 型 。 上 面 例子 用 的 束 是 
String 这 个 类 。 但 是 在 使 用 面向 对 象 编 程 语言 时 ， 像 上 面 的 例子 那 
样 ， 只 能 将 特定 类 的 对 象 〈 该 类 的 实例 ) 赋 给 变量 的 限制 的 确 又 太 严 格 
了 ， 因 为 这 样 的 话 就 没有 多 态 性 了 。 如 果 只 能 给 一 个 变量 赋值 同类 对 
象 ， 束 不 可 能 根据 对 象 的 类 目 动 选择 合适 的 处 理 方 式 ( 多 态 性 ) 。 


2.3.6 ”静态 语言 的 特点 


为 解决 这 一 问题 ， 静 态 类 型 面 同 对 象 纺 程 语言 被 设计 成 这 样 ， 当 给 一 个 
类 变量 赋值 时 ， 既 可 以 用 这 个 类 的 对 象 来 赋值 ， 也 可 以 用 这 个 类 的 子 类 
对 象 来 赋值 。 这 样 吏 可 以 实现 多 态 性 。 


请 看 图 2-17 中 的 程序 。 这 是 一 个 用 Java 风格 的 静态 编程 语言 来 定义 多 
边 形 类 的 例子 。 最 后 出 现 的 poly 是 Polygon 类 的 一 个 变量 ， 所 以 通过 
poly 应 该 可 以 调用 Polygon 类 的 方法 (比如 “面积 ”方法 ) 。 但 实际 
上 ，poly 这 个 变量 的 值 是 Polygon 子 类 Rectangle 的 对 象 ， 所 以 通 
过 poly 调用 的 就 是 Rectangle 的 方法 。 当 然 ， 如 果 调 用 的 方法 只 在 














Polygon 中 定义 而 没有 在 Rectangle 中 定义 ， 那 就 会 调用 Polygon 中 
// 多 边 形 类 
class Polygon 





float 面积 (){... 
int 顶点 数 (){... 


}; 
// 窍 形 类 (继承 多 边 形 类 ) 


class Rentangle extends Polygon 


{ 

















float 面积 ()(...} // 再 定义 面积 计算 方法 
int 边 长 () {...}  // 和 矩形 类 特有 的 方法 

















}; 


Polygon poly; 
poly = new Rectange(); 











图 2-17 父子 关系 的 类 的 示例 ， 变 量 不 能 调用 子 类 特有 的 “ 边 长 ”方法 


但 是 反 过 来 说 ， 在 程序 中 poly 就 是 Polygon 类 的 变量 ， 即 使 它 的 值 明 
明 是 Rectangle 类 的 对 象 ， 用 poly 这 个 变量 也 不 能 调用 Rectangle 
类 中 国有 的 方法 (比如 “ 边 长 *”) 。 

换个 说 法 就 是 ， 变 量 只 是 实际 赋值 对 象 的 一 个 小 观测 窗口 。 即 使 作为 变 
量 值 的 对 象 有 很 多 方法 ， 但 在 使 用 这 个 变量 来 调用 方法 时 ， 只 能 调用 该 
变量 类 型 “知道 ”的 方法 。 


如 果 变 量 poly 调用 “ 边 长 "方法 的 话 ， 静 态 语 言 就 会 曼 不 留情 地 报告 编 
译 错误 。 


而 像 Ruby 这 样 没有 类 型 定义 的 动态 编程 语言 ， 是 在 程序 执行 时 才 来 试 
独 调 用 对 象 的 方法 ， 在 实际 对 象 没 有 可 航 调 用 的 方法 时 程序 才 会 报错 。 


2.3.7 ”动态 语言 的 特点 


























动态 语言 允许 调用 没有 继承 关系 的 方法 。 比 如 说 Ruby 中 定义 了 顺序 取 
出 茶 个 元 又 的 方法 each ， 数 组 和 哈 希 表 中 都 实现 了 这 个 方法 。 


obj.each {|x| 
print x 


} 





在 静态 语言 中 只 能 调用 有 继承 关系 的 方法 ， 数 组 、 哈 布 表 和 字符 串 都 能 
调用 的 方法 ， 只 能 是 在 它们 共同 的 父 类 《和 ， 怕 就 是 0bject ) 中 定义 。 


这 是 单一 继承 的 一 个 缺点 ， 以 后 会 详细 说 明 。 


在 静态 语言 中 ， 如 果 要 调用 类 层次 中 平行 类 的 方法 ， 那 么 必须 要 有 一 个 
可 以 表现 这 些 对 象 的 类 型 。 如 果 没 有 这 个 类 型 ， 可 调用 的 方法 是 非 第 有 
限 的 。 由 此 我 们 看 到 静态 语言 中 某 种 形式 的 多 重 继承 是 不 可 少 的 。 


2.3.8 ”静态 语言 和 动态 语言 的 比较 


静态 语言 和 动态 语言 各 有 利弊。 表态 语言 即使 不 通过 执行 也 可 以 检查 出 
类 型 是 理 抱 配 ， 在 一 定 程度 上 ， 程 序 的 一 些 吉 铺 错误 可 以 被 自动 检测 出 


但 是 ， 逐 个 来 定义 算式 和 变量 的 类 型 又 会 使 程序 变 得 几 长 。 只 有 包含 继 
承 关 系 的 类 才 会 具有 多 态 性 。 相 对 于 动态 语言 来 次 ， 静 态 语言 就 显得 限 
制 过 多 ， 灵 活性 差 。 


动态 语言 则 正好 相反 。 程 序 中 有 没有 错误 只 有 执行 了 才 会 知道 。 从 可 车 
性 来 看 也 许 会 让 你 感觉 有 些 不 安 。 程 序 中 没有 类 型 定义 ， 这 样 程序 会 变 
得 很 人 简洁， 但 别人 看 起 来 或 许 会 有 扣 难 懂 。 

但 是 ， 只 要 方法 名 一 样 ， 这 些 对 象 都 可 以 以 相同 的 方式 去 处 理 。 也 束 是 
说 不 需要 深层 次 探索 类 也 可 以 开发 程序 。 这 样 生 产 效 率 就 会 大 大 提高 



































2 这 种 宽松 的 编程 机 制 称 为 Duck Typing (鸭子 类 型 检测 ) 。 


2.3.9 ”继承 的 两 种 含义 





























像 Java 这 样 的 静态 面 癌 对 象 编 程 语 言 的 变量 ， 具 有 限制 调用 方法 的 功 
， 但 实际 上 限制 的 是 类 有 什么 样 的 方法 ， 而 不 是 这 个 类 是 怎么 实现 
人 


到 现在 为 止 我 们 一 直 都 在 讨论 继承 ， 其 实 继承 包含 两 种 含义 。 一 种 
是 “类 都 有 哪些 方法 ”， 也 就 是 说 这 个 类 都 支持 些 什么 操作 ， 即 规格 的 继 
不 。 


另外 一 种 是 ，“ 类 中 都 用 了 什么 数据 结构 和 什么 算法 ”"， 也 就 是 实现 的 继 
水 。 

静态 语言 中 ， 这 两 者 的 区 别 很 重要 3 。Java 就 对 两 者 有 很 明确 的 区 分 ， 
实现 的 继承 用 extends 来 继承 父 类 ， 规 格 的 继承 用 Implements 来 指 
定 接口 。 

3 动态 编程 语言 中 ， 区 分 规格 的 继承 和 实现 的 继承 意义 不 大 。 即 使 没有 继承 关系 ， 方 法 也 可 以 
自由 地 调用 。 





















































ee 而 接口 只 是 指定 对 象 的 外 观 〈 都 有 哪些 方 
人 


Java 中 ， 只 人 允许 用 extends 继承 一 个 父 类 实现 的 继承 ) ， 所 以 类 的 
继承 是 单一 的 。 类 的 关系 树 和 类 库 也 就 相对 简单 。 


然而 ，implements 可 以 指定 多 个 接口 〈 规 格 的 继承 ) 。 接 口 规定 了 要 
怎样 处 理 该 对 象 。 


举 个 具体 例子 说 明 一 下 。 我 们 来 看 看 图 2-18 中 
java.util.Collection 这 个 接口 的 类 层 

次 。java.util.Collection 是 定义 集合 的 接口 ， 有 2 个 接口 来 继承 
它 ， 分 别 是 按 顺 序 存 放 元 素 的 java.util.List 和 没有 重复 元 素 的 
java.util.Set 。 也 就 是 说 ， 实 现 了 java.util.List 或 
java.util.Set 的 对 象 也 可 以 被 当做 java.util.Collection 来 处 
理 。 
















Java.util.Set 


java.util .Collection) 


Java.util .SortedSet 


图 2-18 ”接口 的 类 层次 ，java.util.Collection 的 例子 


接口 对 实现 没有 任何 限制 。 也 就 是 说 ， 接 口 可 以 由 跟 实现 的 继承 没有 任 
何 关 系 的 类 来 实现 。 也 就 是 说 ， 实 现 这 一 接口 的 类 可 以 继承 任何 其 他 
类 。 例 如 在 java.util 包 中 ， 作 为 java.util.List 的 实现 ， 既 提供 
用 数组 实现 的 java.util.ArrayList ， 也 提供 用 双向 链表 实现 的 
java.util.LinkedList 。 这 些 类 都 直接 继承 0bject 类 。 


2.3.10 ”接口 的 缺点 


关于 规格 继承 和 实现 继承 的 区 别 ， 很 久 以 前 就 有 论文 进行 了 相关 的 探 
讨 。 但 在 众多 得 到 广泛 运用 的 编程 语言 中 ，Java 是 第 一 个 实现 这 种 功能 
的 。 这 可 以 说 是 Java 对 多 重 继承 问题 的 解答 。 既 实现 了 藤 态 语 言 的 多 
重 继 承 性 ， 又 避免 了 多 重 继 承 的 数据 构造 的 冲突 和 类 层次 的 复 森 性 。 


但 是 ， 我 们 并 不 能 说 接口 是 解决 问题 的 完美 方案 。 接 口 也 有 不 能 共享 实 
现 的 缺点 。 


为 了 解雇 多 重 继承 的 问题 ， 人 们 允许 了 规格 的 多 重 继承 ， 但 是 还 是 不 多 
许 实现 多 重 继承 。 针 对 这 一 点 ， 我 们 不 太 好 再 说 什么 ， 但 作为 用 户 ， 惑 
是 觉得 不 方便 。Java 推荐 的 解决 共 译 实现 问题 的 方案 是 ， 在 单一 继承 的 
前 提 下 ， 使 用 组 合 模式 (Composite〉 来 调用 别 的 类 实现 的 共通 功能 。 


本 来 只 是 为 了 固 越 继承 层次 来 共 译 代码 ， 现 在 却 需 要 妨 外 生成 一 个 独立 
对 象 ， 而 且 每 次 方法 调用 都 要 委派 给 那个 对 象 ， 这 实在 是 不 太 合 理 ， 而 
且 执行 的 效率 也 不 高 。 








2.3.11 ”继承 实现 的 方法 


和 静态 语言 Java 个 同 ， 动 态 语 言 本 来 束 没 有 继承 规格 这 种 概念 。 动 态 
语言 需要 解决 的 就 是 实现 的 多 重 继承 。 


动态 语言 是 怎么 解决 这 一 问题 的 呢 ? Lisp、Perl 和 Python 都 提供 了 多 重 
继承 功能 ， 这 样 就 不 存在 单一 继承 的 问题 了 。 在 这 些 语言 中 ， 使 用 多 重 
继承 时 请 千 万 要 小 心 。 

2.3.12 ”从 多 重 继承 变形 而 来 的 Mix-in 


Ruby 采用 了 和 Java 及 其 他 动态 语言 都 不 同 的 方法 。Ruby 用 Mix-in 模 
块 来 解决 多 重 继承 的 问题 。 


Mix-in 是 降低 多 重 继承 复杂 性 的 一 个 技术 ， 最 初 是 在 Lisp 中 开始 使 用 
的 。 实 现 Mix-in 并 不 需要 编程 语言 提供 特别 的 功能 。Mix-in 技术 按 
照 以 下 规则 来 限制 多 重 继承 。 

。 通常 的 继承 用 单一 继承 

。 第 二 个 以 及 两 个 以 上 的 父 类 必须 是 Mix-in 的 抽象 类 
Mix-in 类 是 具有 以 下 特征 的 抽象 类 。 

。 不 能 单独 生成 实例 

。 不 能 继承 普通 类 

按照 这 个 原则 ， 类 的 层次 具有 和 单一 继承 一 样 的 树 结构 ， 同 时 又 可 以 实 
现 功 能 共享 。 实现 功能 共享 的 方法 是 把 共享 的 功能 放 在 Mix-in 类 里 
面 ， 然 后 把 Mix-in 类 插入 到 树 结 构 里 面 。 相 对 于 Java 用 接口 方法 解决 
规格 继承 的 问题 ， 那 么 Mix-in 可 以 说 是 解决 了 实现 继承 的 问题 。 


我 们 看 一 个 Mix-in 的 具体 例子 。 针 对 图 2-14、 图 2-15 中 的 Smalltalk 
的 Stream 问题 ， 图 2-19 显示 的 是 用 Mix-in 构建 的 一 个 相同 结构 。 























Stream ) 


Readable Readable Writable Writable 


ReadStream EK ReadWriteStream 


图 2-19 用 Mix-in 实现 Stream 类 。 既 保持 了 类 层次 的 树 结构 ， 又 避免 了 复制 程序 


在 使 用 Mix-in 的 类 结构 中 ，Stream 只 有 3 个 子 类 。 在 此 基础 上 ， 实 
际 的 输入 /输出 处 理 用 Readable 〈 输 入 ) 和 Writable 〈 输 出 ) 这 两 个 
Mix-in 类 来 实现 。3 个 子 类 通过 继承 Mix-in 类 而 分 别 实现 了 输入 、 输 
出 以 及 输入 和 输出 的 功能 。 


从 Streanm 的 类 层次 来 看 ， 父 类 是 Stream ， 人 负责 输入 输出 的 是 

ReadStream 、WriteStream 和 ReadWriteSstream 这 3 个 子 类 ， 它 们 

形成 了 非常 清晰 的 树 结构 。 层 次 很 简单 ， 没 有 变 成 网 状 结构 。 而 且 ， 由 

于 Mix-in 类 实现 了 共通 功能 ， 从 而 避免 了 复制 程序 代码 。 

和 一 般 的 多 重 继承 相 比 ，Mix-in 是 使 类 结构 变 得 简单 的 优秀 技术 。 使 

用 Mix-in 规则 来 限制 多 重 继承 ， 实 际 上 也 可 以 说 是 “驯服 ”了 多 重 继 

不 。 

这 和 结构 化 编程 用 分 支 和 循环 来 限制 随意 的 goto 语句 是 一 样 的 。Mix- 

- se 于 所 有 多 重 继承 编程 语言 中 ， 因 此 ， 掌 握 这 个 技术 是 非常 
必要 的 。 


2.3.13 ”积极 支持 Mix-in 的 Ruby 


























和 其 他 直接 引入 多 重 继承 的 编程 语言 相 比 ，Ruby 具有 直接 文 持 Mix- 
in 的 特点 。 在 Ruby 中 ，Mix-in 的 单位 是 模块 (module〉。 模 块 具有 
Mix-in 的 特性 ， 即 : 

。 不 能 生成 实例 ; 

。 不 能 从 普通 类 继承 。 


下 面 ， 我 们 看 看 在 Ruby 中 是 怎样 使 用 Mix-in 的 。 图 2-20 演示 了 


Ruby 是 怎样 实现 图 2-19 的 Stream 类 的 定义 的 。 





# Stream 类 ，0bject 的 子 类 
class Stream < Object 


# 这 里 的 定义 省 略 


end 


# 输入 用 Mix-in 
module Readable 


# 定义 输入 用 的 方法 
def read 


end 


end 





# 输出 用 Mix-in 
module Writable 


# 定义 输出 用 的 方法 
def write(str) 


end 
end 


# 输入 用 Stream，Stream 的 子 类 
class ReadStream «< Stream 


# 继承 输入 用 的 Mix-in 
# Ruby 称 为 include 
include Readable 


end 





# 输出 用 Stream，Stream 的 子 类 
class Writestream < Stream 


# 继承 输出 用 Mix-in 


include Writable 


end 




















# 输入 输出 用 stream，Stream 的 子 类 


class ReadWriteStream < Stream 


# 继承 输入 用 Mix-in 


include Readable 


# 继承 输出 用 Mix-in 


include Writable 


end 























图 2-20 用 Ruby 实现 图 2-19 的 Stream 类 的 定义 


模块 用 关键 子 module 来 定义 ， 这 和 定义 类 用 关键 字 class 相似 ， 但 是 
不 能 指定 它 的 父 类 。 其 中 方法 等 的 定义 与 类 也 是 一 样 的 。 


在 类 中 通过 include 可 以 继承 模块 中 的 方法 。 因 为 是 继承 而 不 是 复 
制 ， 所 以 当 类 中 有 同样 的 方法 时 ， 类 中 的 方 法 就 会 被 优先 执行 。 
关于 继承 的 各 方面 内 容 ， 我 们 都 总 结 到 了 表 2-2 中 。 
表 2-2 与 继承 有 关 的 内 容 

个 父 类 ， 单 纯 但 存在 几 个 问题 
TT 父 类 ， 解 决 了 单一 继承 的 问题 (面向 对 象 的 编程 
洁 吝 要 有 式 的 多 二 继承) ， 但 引入 了 单一 继承 所 没有 
J 证 问题 


区 分 规格 的 继承 和 实现 的 继承 




































































只 有 实现 的 继承 








Java 的 接口 可 以 解决 


实现 多 重 名 承 的 和 Mix-in 可 以 解决 
所 有 支持 多 重 继承 的 语言 都 可 以 考虑 使 用 
Ruby 的 Mix-in | 用 模块 ， 积 极 解 决 多 重 继承 的 问题 


























2.4 两 个 误解 
本 节 将 说 明 一 下 关于 对 面向 对 象 的 误解 。 


作为 一 个 很 早 就 接触 面 癌 对 象 编 程 语言 的 爱好 者 ， 我 写 过 关于 面 癌 对 象 
的 文章 ， 开 发 了 面向 对 象 编程 语言 Ruby。 我 觉得 自己 为 让 更 多 的 人 都 
能 够 熟悉 面 癌 对 象 编 程 语 言 作 出 了 贡献 。 我 骄傲 地 认为 ，Ruby 比 
Smalltalk 更 容易 上 手 ， 比 Java 和 C++ 更 容易 实现 面 问 对 象 编程 ， 从 而 
使 人 们 更 容易 理解 面 回 对 象 的 概念 。 


但 是 ， 在 这 个 过 程 中 ， 由 于 我 的 不 成 熟 ， 可 能 会 加 深 一 些 人 对 面 癌 对 象 
的 误解 。 

在 这 些 误 解 中 ， 有 两 个 是 我 很 在 意 的 。 

一 个 误解 是 ， 对 象 是 对 现实 世界 中 具体 物体 的 反映 ， 继 承 是 对 物体 分 类 
的 反映 。 这 个 观点 是 错误 的 。 我 之 前 写 过 的 《面向 对 象 编程 语言 


Ruby》? 中 也 用 哺乳 动物 ， 比 如 狗 和 人 鲸 等 举 过 例子 ， 可 能 也 加 深 了 这 种 
误解 。 









































1 由 松本 行 弘 与 石 家 圭 树 合 著 ，ASCII 出 版 社 出 版 ，ISBN 为 
4756132545 〈http:/www.ascilco.jp/books/detail/4-7561/4-7561-3254-5.html ) 。 


另 一 个 是 ， 多 重 继承 是 不 好 的 。 这 个 观点 也 是 错误 的 。 这 一 误解 好 像 还 
大 都 与 “但 Mix-in 不 错 ” 的 误解 挫 和 在 一 起 。 


2 Mix-in 是 Ruby 中 可 以 利用 的 一 个 抽象 类 。 既 具有 单一 继承 的 方法 构成 和 优先 顺序 的 明确 性 ， 
又 可 以 像 多 重 继承 一 样 从 多 个 类 继承 。Mix-in 类 不 能 用 来 生成 实例 ， 也 不 能 继承 普通 类 。 


在 解释 之 前 我 和 表明 一 下 正确 的 观点 。 关 于 多 重 继承 ， 正 确 的 理解 应 该 
是 ， 如 果 用 得 不 好 就 会 出 问题 。 对 Mix-in 的 理解 应 该 是 ，Mix-in 只 
不 过 是 实现 多 重 继承 的 一 个 技巧 而 已 。 


Ruby 只 支持 Mix-in 形式 的 多 重 继承 。 这 是 因为 在 当时 Mix-in 这 种 技 
术 还 不 广为人知 ， 我 只 是 想 把 多 重 继承 作为 一 种 启蒙 ， 并 没有 贬低 多 重 
继承 的 意思 。 这 可 能 造成 了 有 人 认为 多 重 继承 不 好 的 误解 。 曾 有 一 个 著 
名 的 青年 学 者 因为 Ruby 的 原因 而 误 认 为 多 重 继承 和 Mix-in 是 不 同 的 


















































概念 。 这 也 是 我 要 反省 的 一 点 吧 。 


当然 ， 我 也 不 觉得 这 些 误 解 全 都 是 我 造成 的 。 但 是 ， 为 了 减少 这 些 误 
解 ， 下 面 再 讲解 一 下 面向 对 象 编 程 语言 和 多 重 继承 。 


2.4.1 面向 对 象 的 编程 


从 历史 上 看 ， 从 20 世纪 60 年 代 末 期 到 70 年 代 ， 分 别 有 几 个 不 同 领域 
都 发 展 了 面 癌 对 象 的 思想 。 比 如 数据 抽象 的 研究 、 人 工 乔 能 领域 中 的 知 
识 表现 《框架 模型 ) 、 仿 真 对 象 的 管理 方法 〈Simula) 、 并 行 计 算 模 型 
CActor) 以 及 在 结构 化 编程 思想 影响 下 而 产生 的 面 同 对 象 方法 。 
框架 模型 是 现实 世界 的 模型 化 。 从 这 个 角度 来 看 , “对象 是 对 现实 世界 
中 具体 事物 的 反映 ?这 个 观点 并 没有 错 。 
但 是 不 省 过 去 怎样 ， 现 在 对 面 回 对 象 最 好 的 理解 是 ， 面 辐 对 象 编程 是 结 
构 化 编程 的 延伸 。 
计算 机 最 初出 现时 ， 对 软件 的 要 求 是 非常 简单 的 ， 只 是 把 人 完成 工作 的 
步 又 用 汇编 或 者 机 强 语 言 表现 出 来 ， 编 程 并 不 是 很 难 的 工作 。 但 是 随 关 
软件 的 复杂 化 ， 开 发 就 变 得 越 来 越 复杂 。 因 为 这 个 原因 ，Edsger 
sl 
理解 。 


3 Edsger Wybe Dijkstra 是 荷兰 的 计算 机 科学 家 。 他 提倡 结构 化 编程 ， 发 起 了 减少 使 用 goto 语法 
的 运动 。 他 也 是 解决 图 论 中 最 短路 径 问 题 的 Dijkstra 方法 的 研究 者 。 


1. 顺序 一 一 程序 按照 顺序 执行 。 

2. 循环 一 定 的 条 件 成 立时 程序 反复 执行 。 

3. 分 文 一 一 条 件 满足 时 执行 A 处 理 ， 不 满足 时 执行 B 处 理 。 

结构 化 编程 基本 上 实现 了 控制 流程 的 结构 化 。 但 是 程序 流程 虽然 结构 化 
了 ， 要 处 理 的 数据 却 并 没有 被 结构 化 ″ 。 面 向 对 象 的 设计 方法 是 在 结构 
化 编程 对 控制 流程 实现 了 结构 化 后 ， 又 加 上 了 对 数据 的 结构 化 。 


420 世纪 70 年 代 ，Michael A. Jackson 在 开发 的 Jackson Structured Programming (JSP) 中 尝试 
了 数据 的 结构 化 。 但 是 ，JSP 中 的 结构 化 对 象 是 操作 数据 的 流程 而 不 是 数据 。 
















































































众多 面 辣 对 象 的 编程 思想 昌 不 尽 一 致 ， 但 是 无 论 哪 种 面 癌 对 象 编程 语言 
都 具有 以 下 的 共通 功能 。 


1. 不 需要 知道 内 部 的 详细 处 理 就 可 以 进行 操作 《〈 封 装 、 数 据 抽象 ) 。 
2. 根据 不 同 的 数据 类 型 自动 选择 适当 的 方法 〈 多 态 性 ) 。 


可 以 这 样 认为 ， 以 上 两 点 在 面 同 对 象 编程 语言 中 古 必 不 可 少 的 。 因 为 不 
必 知 道内 部 结构 ， 所 以 可 以 把 数据 当做 黑 盒 来 操作 。 即 使 将 来 数据 结构 
发 生变 化 ， 对 外 部 也 没有 影响 。 黑 盒 化 是 模块 化 的 基本 原则 ， 面 回 对 象 
编程 语言 将 每 一 类 数据 都 当做 黑 盒 处 理 。 


多 态 性 是 根据 不 同 的 数据 类 型 而 自动 选择 适当 的 处 理 。 这 就 不 需要 由 人 

来 根据 不 同 的 数据 类 型 对 处 理 进行 分 支 了 。 如 果 没 有 多 态 性 ， 那 么 程序 

人 
常 困难 。 


在 面 问 对 象 分 机 和 面 癌 对 象 设计 领域 ， 有 些 观 氮 还 不 尽 一 致 ， 但 如 果 只 
谈 面 癌 对 象 编程 ， 就 可 以 认为 封装 和 多 态 是 提高 生产 率 的 技术 。 


结构 化 编程 通过 整理 数据 流 ， 提 高 了 程序 的 生产 效率 和 可 维护 性 。 同 
J 0 
维护 性 。 


如 果 把 面 各 对 象 编程 看 做 是 对 结构 化 编程 的 扩展 ， 那 么 对 象 是 人 否 是 现实 
世界 中 具体 物体 的 反映 就 不 重要 了 。 实 际 上 ， 面 向 对 象 编程 语言 中 的 对 
象 ， 像 字符 种、 数组 和 范围 等 ， 很 多 都 没有 现实 世界 中 的 具体 物体 与 之 
对 应 。 即 使 现实 世界 中 有 具体 物体 与 之 对 应 ， 对 象 也 只 是 描述 现实 物体 
某 一 侧面 的 抽象 概念 而 已 。 比 如 猫 有 颜色 、 血 统 等 很 多 属性 ， 而 程序 中 
的 对 象 并 不 需要 把 这 些 属性 都 考虑 进去 。 程 序 只 是 处 理 抽象 数据 的 。 


2.4.2 对象 的 模板 = 类 


很 多 面 癌 对 象 编程 语言 都 具有 类 和 继承 这 两 个 基本 特性 。 利 用 这 两 个 特 
性 ， 我 们 可 以 高 效 地 把 抽象 的 数据 通过 类 封装 起 来 。 

类 是 对 象 的 模板 ， 相 当 于 对 象 的 雏形 。 在 具有 类 功能 的 面 癌 对象 编 程 语 
言 ? 中 ， 对 象 都 是 由 作为 雏形 的 类 来 生成 的 ， 对 象 的 性 质 也 是 由 类 来 决 





















































定 的 。 通 过 类 可 以 把 同一 类 的 对 象 管理 起 来 。 
5 在 有 些 编程 语言 中 ， 类 并 不 是 必需 的 。 相 对 于 基于 类 的 面向 对 象 语言 来 说 ， 那 些 类 不 是 必需 


的 面向 对 象 语 言 称 为 基于 原型 的 语言 。 有 代表 性 的 基于 原型 的 语言 有 Selff。Ajax 背后 的 
JavaScript 也 是 基于 原型 的 语言 。 


图 2-21 显示 的 是 Ruby 中 对 类 的 定义 。 我 一 般 情 况 下 是 用 阿猫阿狗 来 举 
例 的 ， 但 为 了 避免 误解 ， 这 次 用 数据 结构 的 栈 来 举例 。 


class Stack 
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def initialize 
@data = [] 

end 

def push(x) 
@data.push(x) 

end 

def pop 
@data.pop 

end 

end 


S1 = Stack.new 
s1.push(1) 

s1.push(2) 

puts s1.pop # 显示 2 


s2 = Stack.new 
s2.push("foo") 
puts s2.pop 





puts s1.pop 



































图 2-21 类 具有 把 相同 种 类 的 对 象 进行 统一 管理 的 功能 。 往 栈 s1 里 放 入 1、2 之 后 ， 从 中 取出 
一 个 元 素 。 往 栈 s2 里 放 入 foo 之 后 ， 再 从 中 取出 一 个 元 素 ， 最 后 从 s1 中 再 取出 一 个 元 素 。 这 
就 是 Ruby 程序 


栈 是 LIFO《〈 后 入 先 出 ) 的 数据 结构 。 可 以 按照 从 后 向 前 的 顺序 把 里 面 
的 数据 取出 来 。 图 2-21 的 程序 里 定义 了 两 个 栈 ，s1 和 s2 ， 分 别 对 它 
们 放 入 和 取出 数据 。 两 个 栈 都 是 由 相同 的 类 生成 的 对 象 ， 操 作 方法 都 一 
伴 。 但是， 它们 的 数据 部 是 独立 的 交互 对 两 个 术 进 行 所作 也 不 会 破坏 
彼此 的 数据 。 





















































我 们 可 以 把 面 癌 对 象 编程 语言 的 类 看 做 是 结构 化 编程 语言 的 结构 体 或 记 
录 的 扩展 。 不 同 的 是 ， 类 里 面 不 仅 有 被 称 为 成 员 或 字段 的 数据 ， 而 且 还 
有 对 这 些 “ 数 据 块 ” 进 行 操作 的 方法 。 


对 于 只 是 把 数据 组 织 在 一 起 的 结构 体 ， 我 们 能 做 的 只 是 取出 或 者 更 新 成 
员 变 量 的 值 。 而 类 中 定义 有 成 员 函 数 〈 也 称 为 方法 ) ， 可 以 调用 这 些 方 
法 来 处 理 类 的 对 象 。 


例 程 能 够 把 一 系列 的 处 理 步骤 组 织 在 一 起 ， 把 处 理 的 内 容 黑 盒 化 ， 是 个 
很 有 用 的 工具 ， 而 类 则 是 把 数据 黑 盒 化 的 工具 。 由 于 对 类 内 部 数据 的 操 
作 都 是 通过 类 的 方法 来 实现 的 ， 所 以 内 部 数据 结构 即使 在 以 后 发 生变 
化 ， 对 外 部 也 没有 影响 。 这 和 例 程 把 处 理 黑 盒 化 之 后 ， 内 部 算法 变化 对 
外 部 没有 影响 是 同样 的 道理 。 

像 这 样 不 用 考虑 内 部 处 理 的 黑 盒 化 也 被 称 为 抽象 化 ， 是 降低 程序 复杂 度 
的 有 效 方法 。 

2.4.3 ”利用 模块 的 手段 二 继承 

类 以 数据 为 核心 ， 把 与 之 相关 的 处 理 也 都 集中 到 一 起 。 这 样 ， 模 块 之 间 
一 些 具 有 共通 性 质 的 内 容 就 会 重复 出 现 ， 从 而 违背 了 蔡 止 重复 的 DRY 
原则 6 ， 

6 DRY (Don't Repeat Yourself) 原则 就 是 彻底 避免 重复 。 这 一 原则 对 提高 程序 开发 的 效率 和 可 
靠 性 非常 有 效 。 

避免 重复 的 方法 是 继承 。 那 些 具 有 相同 性 质 的 类 可 以 从 拥有 共通 性 质 的 
类 中 “继承 ”这 些 共通 的 部 分 。 不 单 是 可 以 继承 ， 还 可 以 蔡 换 ， 奶 加 其 中 
不 同 的 部 分 ， 从 而 生成 新 的 类 。 


从 这 个 角度 来 看 ， 类 是 模块 ， 继 承 就 是 利用 模块 的 方法 。 继 承 的 思想 好 
像 有 其 现实 的 知识 基础 ， 但 是 把 它 看 做 纯粹 的 模块 利用 方法 则 更 恰当 。 
因为 继承 只 不 过 是 抽象 的 功能 利用 方法 ， 所 以 不 必 把 对 继承 的 理解 束缚 
在 “继承 是 对 现实 事物 的 分 类 的 反映 ”。 实 际 上 这 样 的 想法 反而 妨碍 了 我 
们 对 继承 的 理解 。 


关于 继承 ， 规 格 继承 和 实现 继承 的 区 别 也 是 非常 重要 的 话题 。 规 格 就 古 






























































从 外 部 看 到 的 类 的 功能 ， 这 样 的 继承 是 规格 继承 。 实 现 继承 是 指 继承 功 
能 的 实现 方法 。 


传统 面向 对 象 编程 语言 是 一 下 子 把 规格 和 实现 都 继承 下 来 ， 在 最 近 的 编 
程 语言 中 ， 有 的 是 把 这 两 种 继承 分 开 了 。 比 如 Java 里 的 接口 就 是 规格 
继承 ， 而 在 Sather 编程 语言 中 ， 规 格 继承 和 实现 继承 被 完全 分 离开 了 。 


2.4.4 多 重 继承 不 好 吗 


在 早期 的 面 同 对 象 编程 语 言 中 ， 其 功能 被 继承 的 类 (其 类 或 者 父 类 ) 被 
限定 为 一 个 ， 这 称 为 单一 继承 (或 者 单纯 继承 ) 。 


把 单一 继承 自然 地 扩展 ， 一 个 类 可 以 继承 多 个 类 的 功能 ， 就 成 为 了 多 重 
继承 。 在 自然 界 中 也 是 一 样 ， 家 长 不 只 有 一 个 。 一 个 程序 员 同 时 也 可 能 
是 一 个 父亲 ， 同 时 有 具有 多 个 角色 。 所 以 从 单一 继承 到 多 重 继 承 是 很 自然 
的 。 


但 是 ， 像 Java 和 Smalltalk 这 样 ， 不 支持 多 重 继承 的 编程 语言 还 有 很 
多 ， 在 程序 员 中 多 重 继承 好 像 也 不 是 很 普及 ， 其 中 认为 “多 重 继承 是 不 
好 的 东西 > 的 人 并 不 少 。 


单一 继承 的 类 之 间 的 关系 是 很 单纯 的 树 结 构 。 但 是 对 多 重 继 素 而 言 ， 类 
之 间 的 关系 却 是 复杂 的 网 状 结构 。 


正 因为 如 此 ， 多 重 继承 在 一 部 分 开发 者 当中 的 评价 并 不 好 ， 但 是 考虑 到 
程序 的 生产 力 ， 多 重 继承 还 是 必要 的 。 

对 于 像 Java 或 者 C++ 这 样 需要 指定 变量 类 型 的 静态 语言 来 说 ， 父 类 类 
型 的 变量 可 以 用 子 类 的 对 象 来 赋值 。 如 果 用 子 类 以 外 的 对 象 来 赋值 的 
话 ， 融 会 发 生 编 译 错误 。 所 以 可 以 说 这 既 实 现 了 多 态 性 ， 又 实现 了 对 变 
量 类 型 的 检查 ， 是 一 个 很 好 的 想法 ”。 

7 子 类 对 象 拥 有 父 类 所 有 属性 ， 可 以 当做 父 类 对 象 来 处 理 ， 这 种 状态 称 为 LSP (Liscov 
Substitution Principle) 。 


结果 是 ， 静 态 语言 中 可 以 实现 多 态 性 的 只 是 限于 拥有 共通 父 类 的 对 象 。 
但 是 ， 把 对 象 统一 处 理 的 观点 可 能 不 止 一 个 。 比 如 对 于 字符 串 类 ， 如 果 






























































着 眼 于 能 够 比较 大 小 这 一 性 质 的 话 ， 我 们 有 时 想 把 它 与 数值 等 统一 处 
理 。 这 时 我 们 可 能 会 创建 一 个 能 够 比较 大 小 的 父 类 ， 让 数值 和 字符 串 来 
继承 这 个 父 类 。 


而 在 同一 程序 中 别 的 地 方 ， 考 虑 到 字符 串 类 是 字符 的 厅 列 ， 为 能 实现 把 
其 中 的 元 素 按 照 顺 序 取 出 的 操作 ， 又 想 把 它 与 列表 等 统一 处 理 。 这 束 需 
要 给 字符 串 和 列表 定义 一 个 共通 的 父 类 。 但 是 单一 继承 只 能 有 一 个 父 
类 ， 不 可 能 同时 实现 比较 大 小 和 按 顺 序 访问 这 两 个 要 求 。 


所 以 ， 为 了 解决 这 个 问题 ， 多 重 继 承 在 静态 编程 语言 中 是 必要 的 。 实 际 
上 ， 静 态 面 向 对 象 编程 语言 的 代表 C++ 和 Eiffel$ 都 支持 多 重 继承 。 
Java 也 可 以 通过 接口 来 文 持 规格 的 多 重 继承 。 


8 Eiffel 是 在 20 世纪 80 年 代 后 期 由 Bertrand Meyer 设计 的 面向 对 象 编程 语言 。 其 主要 特点 是 前 
态 类 型 与 多 重 继承 ， 严 密 的 规格 与 “基于 契约 的 设计 ”。Eiffel 在 国外 金融 等 领域 中 得 到 了 实际 应 
用 O 〇 


2.4.5 ”动态 编程 语言 也 需要 多 重 继承 


动态 编程 语言 没有 类型 检查 ， 从 这 方面 来 说 没有 理由 用 多 重 继承 。 那 么 
动态 编程 语言 真 的 不 需要 多 重 继 承 吗 ? 


肯定 不 是 这 样 的 。 

无 论 从 类 型 上 考虑 结果 如 何 ， 从 模块 的 角度 来 看 ， 单 一 继承 也 有 很 多 不 
便 性 。 比 如 “一 个 文件 只 能 利用 一 个 库 ? 这 样 的 限制 就 让 我 们 感到 很 不 自 
由 。 

当然 ， 实 现 的 共享 可 以 通过 多 个 对 象 的 组 合 〈composition ) 和 委托 
Cdelegate) “来 做 到 ，Java 中 就 推荐 这 种 方法 。 

9 组 合 是 把 多 个 对 象 合成 一 个 对 象 来 处 理 。 委 托 是 把 对 一 个 对 象 的 方法 调用 委派 给 别 的 对 象 。 
但 是 如 果 把 类 当做 模块 来 看 的 话 ， 多 重 继承 相当 于 语言 功能 文 持 模块 组 
合 。 有 了 多 重 继承 ， 同 样 的 处 理 可 以 简单 地 记述 ， 可 以 促进 实现 的 共 
享 


享 。 从 DRY 原则 的 角度 来 看 ， 今 后 的 面 癌 对 象 语 言 也 应 该 文 持 多 重 继 
不 。 




















































































































2.4.6 ”驯服 多 重 继承 的 方法 

多 重 继承 因为 有 多 个 父 类 ， 所 以 可 能 引发 下 面 两 个 问题 。 
1. 类 关系 复杂 化 。 

2. 继承 功能 名 字 重 复 。 


最 初 的 问题 起 因 是 类 的 关系 从 简单 的 树 结 构 变 成 了 复杂 的 网 状 结构 。 单 
一 继承 时 ， 子 类 和 父 类 、 父 类 和 它 的 父 类 ...... 之 间 的 关系 是 一 条 直线。 


多 重 继承 时 ， 类 之 间 的 关系 变 成 由 一 个 类 作为 顶点 的 有 同 图 。 如 图 2-22 
所 示 ， 优 先 级 不 能 被 简单 地 确定 。 图 2-22 左边 显示 的 是 单一 继承 的 例 
子 。 类 C 和 父 类 之 间 的 优先 级 是 C-B-A， 简 单 而 明确 。 右 边 显 示 的 是 多 
重 继承 的 例子 。 类 5 的 父 类 有 类 1、 类 2、 类 3 和 类 4， 但 是 父 类 之 间 
的 优先 级 并 不 明确 。 
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图 2-22 单一 继承 和 多 重 继 承 

解决 优先 级 问题 需要 巧妙 的 设计 ， 设 计 好 的 话 ， 束 个 会 有 或 难以 发 

生 ) 问题 。 多 重 继承 确实 容易 让 类 之 间 的 关系 变 得 复杂 。 不 管 怎 么 说 ， 

和 单一 继承 相 比 ， 这 是 一 个 很 显眼 的 缺点 。 但 是 如 果 能 够 进行 巧妙 和 适 
当 的 设计 ， 大 部 分 场合 这 个 问题 是 可 以 避免 的 。 


多 重 继承 设计 的 一 个 有 效 的 技巧 是 Mix-in 。Ruby 也 利用 了 这 个 技 
巧 。 














At 做 多 重 继承 设计 时 ， 从 第 2 个 父 类 开始 的 类 要 满足 以 下 条 


1. 不 能 单独 生成 实例 的 抽象 类 。 
2. 不 能 继承 Mix-in 以 外 的 类 。 


满足 这 两 个 条 件 的 类 称 为 Mix-in 类 。 正 是 因为 这 些 限 制 ，Mix-in 类 
可 以 说 是 功能 模块 。 通 过 Mix-in 类 的 功能 和 一 般 类 的 组 合 ， 继 承 关 系 
既 单 纯 ， 叉 可 以 享受 多 重 继承 的 优点 。 


对 于 Mix-in 的 实用 性 ， 改 但 有 人 会 抱 有 怀疑 的 态 


其 实 一 般 的 继承 是 可 以 变换 成 基于 Mix-in 的 关系 的 。 请 看 图 2-23 和 图 
2-24。 图 2-23 是 Window 类 的 多 重 继承 关系 。 在 一 般 的 Window 类 上 ， 
加 上 标题 栏 就 是 Titledwindow 类 ， 加 上 边框 束 是 FramedWindow 类 ， 
既 有 标题 又 有 边框 的 是 TitledFramedwindow 

类 。TitledFramedWindow 类 分 别 继承 了 TitledWindow 类 和 
FramedWindow 类 。 
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TitledWindow FramedWindow 





TitledFramedWindow 


图 2-23 多 重 继承 的 例子 ，Window 类 的 继承 关系 






Window 


TitledWindow TitledFramedWindow FramedWindow 


图 2-24 图 2-23 的 Mix-in 版 








而 在 图 2-24 中 ， 用 Mix-in 实现 了 相同 的 功能 。 标 题 功 能 和 边框 功能 分 
别 被 做 成 两 个 Mix-in 类 ， 这 样 TitledWindow 类 、FramedWindow 类 
和 TitledFramedWindow 类 就 成 为 了 3 个 独立 的 类 。 

这 样 ， 通 过 对 功能 的 分 离 ， 多 重 继承 就 可 以 由 单一 继承 加 上 Mix-in 类 

来 实现 。 利 用 Mix-in 就 可 以 同时 享有 单一 继承 的 单纯 性 和 多 重 继承 的 

共有 性 。 


另外 一 个 比较 厅 烦 的 问题 是 名 字 重 复 。 多 重 继承 编程 语言 都 有 目 己 的 对 
应 方法 ， 大 致 上 分 为 以 下 3 种 。 


1. 给 父 类 定义 优先 级 


重复 的 时 候 使 用 优先 级 高 的 父 类 属性 。Common Lisp Object 
System (CLOS) 提供 的 这 个 功能 在 继承 数据 类 型 时 很 有 效 。 


2. 把 重复 的 名 字符 换 掉 


Eiffel 使 用 的 就 是 这 种 方法 。 在 模块 继承 时 用 这 种 方法 很 有 效 ， 其 
缺点 是 写 程 序 时 很 复杂 。 


3. 指定 使 用 类 的 名 字 
C++ 用 的 是 这 种 方法 。 这 也 是 在 继承 模块 时 有 效 的 方法 。 缺 点 是 本 
来 不 需要 指定 类 名 的 情况 现在 却 要 指定 。 
从 对 应 方法 可 以 明白 地 看 到 各 种 语言 的 特点 。Lisp 重视 数据 类 型 的 继 
承 ，Eiffel 和 C++ 重视 模块 的 继承 。 
2.4.7 “Ruby 中 多 重 继承 的 实现 方法 


当初 设计 Ruby 的 时 候 ，Mix-in 并 不 广为人知 。 我 认为 Mix-in 是 解决 
多 重 继 承 问题 的 非常 好 的 方法 。 所 以 ， 出 于 启蒙 的 目的 ， 我 特意 在 
Ruby 中 强制 采用 了 Mix-in ， 而 没有 使 用 普通 的 多 重 继承 。 


不 知道 是 否 因为 这 个 原因 ，Mix-in 的 知名 度 提 高 了 。 但 是 也 像 前 面 说 
过 的 一 样 ， 甚 至 一 些 计算 机 科学 的 研究 者 也 产生 了 对 多 重 继承 的 误解 。 





























我 们 比较 一 下 在 Ruby 中 使 用 和 不 使 用 Mix-in 的 区 别 。 图 2-25 是 使 用 
Mix-in 的 Ruby 程序 。 用 module 定义 的 是 Mix-in 类 。 


图 2-25 的 LockingMixin 可 以 对 任意 的 类 提供 lock 功能。 在 这 里 ， 给 
Printer 类 增加 了 lock 功能 。 在 spool 方法 中 调用 了 lock 方法 。 


module LockingMixin 


def lock 


end 
def unlock 


end 
end 


class Printer<Device 


include LockingMixin 
def spool(text) 
lock 
unlock 
end 
end 





图 2-25 利用 Mix-in 的 Ruby 程序 





图 2-26 是 没有 Mix-in 的 Ruby 程序 。 这 里 增加 了 实现 Lock 功能 的 对 
象 初始 化 ， 添 加 了 Lock 方法 ， 还 要 定义 很 多 方法 的 委托 调用 。 比 较 起 
来 ，Mix-in 程序 就 很 简洁 。 








class Lock 


def lock 


end 
def unlock 


end 
end 


class Printer<Device 


def initialize 
@lock = Lock.new 

end 

def lock 
@lock.1lock 

end 

def unlock 
@lock.unlock 

end 

def spool(text) 
@lock.1lock 


@lock.unlock 
end 
end 








图 2-26 不 用 Mix-in 来 实现 图 2-25 的 功能 





2.4.8 ” Java 实现 多 重 继 承 的 方法 


Java 采用 了 单一 继承 。 但 是 为 了 满足 静态 编程 语言 对 多 重 继承 的 需要 ， 
Java 采用 了 规格 的 多 重 继承 ， 即 接口 。 如 果 使 用 接口 ， 即 使 对 没有 继承 
关系 的 不 同 种 类 的 对 象 也 可 以 做 共通 的 处 理 。 


但 是 接口 只 能 实现 规格 的 多 重 继 承 ， 实 现 的 多 重 继 承 在 Java 中 是 不 允 
许 的 。 这 种 设计 原则 多 少 会 让 人 感觉 到 不 方便 吧 。 


因为 不 允许 实现 的 多 重 继 承 ， 如 果 要 共通 实现 的 话 ， 一 般 要 像 图 2-26 
所 示 的 程序 一 样 使 用 委托 的 方法 。 图 2-27 是 使 用 委托 来 共通 实现 的 
Java 程序 例子 。 它 把 从 接口 调用 的 方法 ， 部 明确 地 委托 给 实现 共通 功能 
的 对 象 。 本 来 在 多 重 继承 中 可 以 自动 实现 的 ， 现 在 要 通过 手工 来 实 
现 。 虽 然 有 些 麻烦 ， 但 这 也 算 Java 的 风格 吧 。 











interface LockingMixin { 
void lock(); 
void unlock(); 


} 


class Lock { 
void lock(){...;}; 


void unlock(){...;}; 
} 


class Printer implements LockingMixin { 
final Lock lock = new Lock(); 
void lock() {lock.lock();} 
void unlock() {lock.lock();} 
void spool(TextData text){ 
this.1lock(); 


a 
} 
} 























图 2-27 用 委托 来 实现 多 重 继 承 的 Java 程序 











图 2-28 没有 用 委托 的 方法 ， 而 是 把 实现 共通 功能 的 对 象 作 为 成 员 变 量 
来 使 用 。 这 样 操作 对 象 并 不 需要 直接 实现 接口 ， 而 只 是 作为 属性 保存 一 
个 实现 共通 功能 的 对 象 ， 在 程序 中 直接 调用 该 属性 的 方法 。 
interface LockingMixin { 

void lock(); 

void unlock(); 


} 








class Lock implements LockingMixin { 
void lock(){}; 
void unlock(){}; 

} 


class Printert{ 
final Lock lock = new Lock(); 
void spool(TextData text){ 
this.1lock.1lock(); 


this.lock.unlock(); 
} 
} 








图 2-28 不 用 委托 来 实现 多 重 继承 的 Java 程序 


没有 了 委托 的 方法 ， 这 些 部 分 就 变 得 简单 明了 ， 但 是 在 调用 共通 功能 的 

















时 候 ， 每 次 都 要 引用 属性 加 上 .lock， 会 让 人 觉得 不 怎么 漂亮 。 


米 米 米 


本 节 回 顾 了 多 重 继承 ， 要 点 有 以 下 5 个 。 


1. 


2: 


3. 


4. 


5. 


多 重 继承 并 不 可 怕 。 

今后 面向 对 象 编程 语言 必须 有 某 种 形式 的 多 重 继承 。 
类 既 有 类 型 的 一 面 又 有 模块 的 一 面 。 

C++、Eiffel 等 语言 积极 利用 了 类 的 模块 的 一 面 。 
使 用 Mix-in 可 以 避免 多 重 继承 的 类 关系 变 复杂 。 











正确 地 使 用 多 重 继承 是 提高 程序 效率 的 有 效 方法 。 如 宁 本 市 的 次 明 能 够 
减少 对 多 重 继承 的 误解 ， 那 我 就 感到 很 押运 了 1 。 


10 本 节 内 容 参考 了 《 面 癌 对 象 入 门 》 一 书 ， 该 书 由 Bertrand Meyer 车， 二 木 厚 吉 审 校 ， 酒 句 宽 















































。 酒 句 顺 子 译 ，Ascii 出 版 ，ISBN4756100503。 书 名 是 “入 门 ”， 但 根本 不 是 面 癌 初学 者 的 ， 而 是 
面向 中 高 级 读者 的 书 。 例 题 都 是 用 〈 大 家 不 太 熟 悉 的 ) Eiffel 语言 写成 的 ， 遗 憾 的 是 Eiffel 本 身 
的 版 本 也 很 老 ， 但 即使 有 这 些 缺 点 ， 这 本 书 还 是 非常 有 价值 的 。 例 题 以 外 的 内 容 一 点 也 不 过 
时 。 如 果 想 要 进一步 深入 理解 面向 对 象 编 程 的 话 ， 这 本 书 可 以 说 是 最 好 的 。 还 有 ， 翔 泳 社 重 新 
翻译 了 这 本 书 ， 分 两 册 出 版 : 《面向 对 象 入 门 〈 第 2 版) : 原则 。 概 念 》，《 面 向 对 象 入 门 
(第 2 版) : 方法 论 ， 实 践 》。 





































































































2.5 Duck Typing 诞生 之 前 


在 编程 世界 中 ， 经 常 提 到 静态 (static)〉 与 动态 (dynamic) 这 样 的 词 
汇 。 静 态 是 指 程序 执行 之 前 ， 从 代码 中 就 可 以 知道 一 切 。 程 序 静态 的 部 
分 包括 变量 、 方 法 的 名 称 和 类 型 以 及 控制 程序 的 结构 等 等 。 


相对 于 静态 ， 动 态 是 指 在 程序 执行 之 前 有 些 地 方 古 不 知道 的 。 程 序 动态 
的 部 分 包括 变量 的 值 、 执 行 时 间 和 使 用 的 内 存 等 等 。 


如 果 知 道 程序 使 用 的 算法 和 输入 值 ， 虽 然 有 时 候 不 执行 也 可 以 知道 输出 
的 结果 ， 但 是 现实 中 这 种 单纯 的 情况 很 少 。 通 第 情况 下 ， 程 序 本 来 束 是 
不 被 执行 束 不 知道 结果 的 ， 所 以 从 一 定 程度 上 说 程序 部 具 有 动态 特性 。 
因此 ， 严 格 地 说 ， 静 态 和 动态 之 间 的 界限 是 很 微妙 的 。 


2.5.1 为 什么 需要 类 型 


在 程序 中 具有 动态 或 静态 特性 的 东西 很 多 ， 这 里 以 类 型 为 重点 ， 讲 解 一 
下 静态 类 型 和 动态 类 型 。 


编程 语言 中 的 类 型 指 的 是 数据 的 种 类 。 例 如 整数 和 字符 串 都 是 数据 的 类 
型 。 从 硬件 的 角度 来 看 ， 计 算 机 可 以 处 理 的 类 型 只 有 二 进 制 。 在 计算 机 
可 以 直接 操作 的 汇编 语言 中 ， 数 据 类 型 都 是 整数 ' ， 其 他 类 型 的 数据 都 
用 整数 来 表现 。 


1 只 处 理 二 进 制 数 的 说 法 只 是 一 个 概念 。 实 际 上 CPU 可 以 直接 处 理 浮 点 小 数 等 整数 以 外 的 类 
型 


例如 表现 字符 串 的 时 候 ， 古 给 每 个 字符 部 编 上 写 ， 这 些 整 数 编写 排列 起 
来 构成 了 字符 串 。 内 存 中 的 地 址 位置 ) 也 是 用 整数 来 表现 的 。 数 组 、 
对 象 等 复杂 数据 也 是 一 样 的 。 


但 是 这 种 处 理 方法 是 很 低级 的 ， 它 要 求人 要 理解 、 记 忆 用 整数 来 表达 所 
有 类 型 数据 的 方法 。 不 小 心 出 一 点 差错 程序 就 不 能 运行 。 


这 样 的 话 程序 员 的 负担 就 太 大 了 ， 所 以 编程 语言 就 进化 了 。 被 称 为 世界 
上 最 初 的 编程 语言 的 FORTRAN (Formula Translator， 公 式 变 换 机 ) ， 
引入 了 变量 和 算式 的 类 型 。 在 程序 中 ， 变 量 只 能 用 整数 赋值 ， 数 组 只 能 







































































古 浮 点 数 的 数组 等 ， 可 以 指定 数据 类 型 。 这 是 静态 数据 类 型 的 开始 。 这 
种 对 数据 类 型 的 定义 称 为 类 型 定义 。 图 2-29 是 C 语言 的 类 型 定义 ， 它 
征 静 态 语 言 的 代表 。 


i 是 整数 */ 
是 浮 点 小 数 */ 








'a"; /* 类 型 不 匹配 */ 





图 2-29 C 语言 的 类 型 定义 


假设 在 程序 中 把 字符 串 赋值 给 整数 型 的 变量 ， 那 么 根据 程序 的 定义 ， 编 
译 占 知道 赋值 语句 中 值 的 类 型 (字符 串 〉》 和 变量 的 类 型 (整数) ， 所 以 
能 够 检查 出 这 种 类 型 不 匹配 的 错误 。 静 态 的 类 型 不 用 执行 程序 就 可 以 通 
过 机 颖 检测 到 这 种 人 为 错误 ， 可 以 说 是 一 项 伟大 的 发 明 。 


2.5.2 ”动态 的 类 型 是 从 Lisp 中 诞生 的 


在 FORTRAN 出 现 数 年 之 后 诞生 的 Lisp 编程 语言 (List Processor， 列 表 
处 理 机 ) ， 对 于 数据 类 型 的 问题 采取 了 男 一 种 解决 方法 。 在 1958 年 刚 
出 现时 ，Lisp 只 支持 列表 〈list) 和 原子 (atom) 这 两 个 数据 类 型 。 


列表 是 可 以 由 两 个 引用 的 节点 (node) 构成 的 单 向 列表 ， 比 如 像 (5 13) 
这 样 的 数据 。 原 子 比 较 难说 明 ， 简 单 地 说 就 是 指 1ist 以 外 的 数据 类 
型 ， 比 如 数值 和 字符 串 都 是 原子 (参见 图 2-30) 。 

cons 网 格 

















Car car 





2-30 ”Lisp 的 链表 与 原子 


List 的 每 个 节点 ， 历 史上 称 为 cons 单元 ， 可 以 引用 其 他 的 cons 单元 或 
原子 。cons 单元 可 以 有 两 个 引用 ， 因 为 历史 的 原因 ， 前 面 的 称 为 car 
， 后 面 的 称 为 cdr (参见 图 2-31) 。 


原子 
图 2-31 链表 原子 的 细节 ，nil 是 空 的 原子 


在 Lisp 中 程序 和 数据 如 条 不 能 用 文字 来 表现 的 话 会 很 肪 烦 。 所 以 Lisp 
0 S 式 的 列表 。S 式 是 用 以 下 规则 把 列表 转换 成 字符 











。 cons 单元 中 ，car 的 值 和 cdr 的 值 用 点 连接 ， 再 用 括号 括 起 来 。 
。 cdr 如 果 是 列表 的 话 ， 省 略 括号 。 
。 末尾 的 cdr 如 果 是 nil ， 那 么 省 略 .nil 。 


按 顺 序 应 用 这 些 规则 的 话 ， 图 2-31 的 列表 可 以 用 下 面 的 字符 串 来 表 
示 。 从 第 一 行 开始 按照 顺序 进行 简化 ， 就 可 以 得 到 第 三 行 的 结果 。 





Lisp 的 数据 用 列表 ， 程 序 也 用 列表 ， 所 有 的 东西 都 用 列表 来 表示 。Lisp 
0 
部 。 


(defun fact (n) 
(if (=n 9) 











1 
(* n (fact (- n 1))))) 


图 2-32 ”Lisp 的 计算 阶乘 的 程序 


Lisp 的 列表 中 的 各 个 cons 单元 是 指向 cons 单元 还 是 原子 ， 事 前 是 不 
知道 的 。 列 表 中 cons 单元 和 原子 混杂 存在 ， 这 从 本 质 上 就 可 以 说 是 多 
态 的 数据 结构 。 以 这 种 数据 结构 为 基础 的 Lisp 采取 的 战略 是 数据 要 记 
录 与 自己 数据 类 型 有 关 的 信息 。 这 样 的 数据 类 型 称 为 动态 类 型 。 


Lisp 程序 中 ， 如 果 用 只 能 处 理 原子 数据 的 方法 来 处 理 cons 单元 数据 ， 
执行 时 的 数据 类 型 检查 就 会 报告 错误 。 因 为 执行 时 有 类 型 检查 ， 所 以 一 
旦 发 现 有 不 正确 的 处 理 ， 程 序 就 会 停止 执行 。 但 是 不 执行 程序 的 话 是 无 
法 知道 哪儿 有 错误 的 。 


2.5.3 ”动态 类 型 在 面 癌 对 象 中 发 展 起 来 了 
编程 语言 的 数据 类 型 分 为 两 类 ， 一 类 是 起 源 于 FORTRAN 的 指定 了 变量 


或 算式 数据 类 型 的 静态 类 型 ， 另 一 类 是 起 源 于 Lisp 的 动态 类 型 。 毅 态 
类 型 从 FORTRAN 开始 ， 通 过 COBOL、ALGOL 被 很 多 编程 语言 采 
用 : 
































C 语言 的 原型 是 没有 数据 类 型 定义 的 BCPL 语言 ， 该 语言 受到 了 
ALGOL 语言 的 影响 采用 了 静态 类 型 。 


在 很 长 的 时 间 里 ， 只 有 Lisp 和 受 其 影响 的 语言 (比如 LOGO) 才 采 用 
了 动态 类 型 ， 但 是 以 * 某 件 事情 ?为 契机 ， 动 态 类 型 开始 得 到 广泛 接受 。 


那个 “ 某 件 事情 ”， 束 是 面 同 对 象 编程 。 最 初 的 面 同 对 象 编程 语言 
Simula， 受 到 了 ALGOL 语言 的 很 大 影响 ， 像 整数 等 这 些 基本 的 数据 类 
型 都 采用 了 静态 类 型 。 但 是 对 新 引入 的 对 象 ， 不 论 它 是 哪个 类 的 对 象 ， 
全 都 用 Ref 这 种 类 型 来 表现 。 


不 管 是 什么 类 的 对 象 ， 它 们 的 静态 类 型 都 是 Ref 型 ， 没 有 任何 区 别 。 但 
是 Ref 型 数据 知道 自己 是 什么 类 的 对 象 ， 所 以 Ref 可 以 说 是 动态 类 
2 




















仔细 想 想 ， 对 象 保 存 者 有 关 目 己 种 类 的 信息 ， 某 个 变量 可 以 用 各 种 类 型 
的 数据 来 赋值 ， 这 两 点 是 多 态 这 一 面 问 对 象 重 要 特性 的 必要 条 件 。 因 为 
如 果 变 量 类 型 和 赋值 数据 的 类 型 必须 是 完全 一 致 的 静态 类 型 的 话 ， 程 序 
执行 时 就 不 可 能 根据 数据 类 型 的 不 同 来 自动 选择 合适 的 处 理 方法 。 如 果 
没有 从 Lisp 中 起 源 的 动态 类 型 ， 面 向 对 象 可 能 也 不 会 存在 吧 。 


继承 了 起 源 于 Simula 的 面向 对 象 思想 ，Smalltalk 像 Lisp 一 样 ， 全 面 采 
用 了 动态 类 型 。 虽 然 从 外 部 来 看 ，Smalltalk 和 Lisp 完全 不 一 样 ， 但 从 
内 部 构造 来 看 ， 它 们 像 双 胞 胎 一 样 。 另 外 ，Lisp 也 增加 了 面向 对 象 的 功 
能 ， 独 立地 发 展 到 了 现在 。 


无 论 如 何 ， 从 20 世纪 70 年 代 到 80 年 代 ， 面 同 对 象 编程 是 由 动态 类 型 
语言 Smalltalk 和 Lisp 〈 及 它们 的 各 种 方言 ) 所 文 撑 的 。 


2.5.4 ”动态 类 型 和 静态 类 型 的 黎 近 


20 世纪 80 年 代 ， 面 向 对 象 编程 语言 的 主流 是 包含 动态 数据 类 型 的 语 
言 。 但 是 在 21 世纪 的 今天 ， 使 用 最 广泛 的 面 癌 对 象 编程 语言 是 具有 融 
态 数据 类 型 的 Java 和 C++。 在 面向 对 象 编程 语言 的 历史 上 ， 完 竟 发 生 
许 休 关照” 


在 20 世纪 80 年 代 初 期 ， 受 到 Simula 的 影响 ， 一 个 面向 对 象 的 编程 语 
言 诞生 了 ， 这 就 是 C++。C++ 包 含 了 C 的 所 有 功能 ， 并 增加 了 由 Simula 
发 展 而 来 的 面向 对 象 功 能 ^ 。 

2 C++ 没有 受到 Smalltalk 的 影响 ， 而 是 受到 Simula 的 直接 影响 ， 所 以 很 多 用 语 都 不 同 于 


Smalltalk。 比 如 ， 父 类 称 为 基 类 (base class) ， 子 类 称 为 派生 类 (derived class) 。 这 反映 了 
C++ 的 作者 Bjarne Stroustrup 曾 是 Simula 用 户 。 


在 Simula 中 ， 除 对 象 以 外 的 数据 类 型 都 是 鲜 态 类 型 。 受 到 Simula 很 大 
影响 的 C++， 因 为 引入 了 一 个 原则 ， 对 象 也 采用 了 静态 类 型 。 


这 个 原则 融 是 子 类 对 象 可 以 看 成 是 父 类 对 象 。 有 具体 来 说 ， 如 果 String 


(字符 串 ) 类 是 Object 〈 对 象 ) 类 的 子 类 的 话 ， 那 么 String 类 的 所 
有 对 象 都 可 以 看 做 是 0bject 类 的 对 象 〈 参 见 图 2-33) 。 


class Object { 
}; 






























































class String : public Object { 





}; 

// 看 成 是 0bject 

String *str = new String(); 
Object *obj = str; 























图 2-33 C++ 对 象 与 静态 类 型 的 关系 














根据 这 个 原则 ， 在 编译 时 就 可 以 知道 变量 或 算式 的 类 型 ， 又 可 以 根据 执 
行 时 的 数据 类 型 自动 选择 合适 的 处 理 ， 从 而 同时 具备 了 静态 类 型 的 优点 
和 动态 类 型 的 多 态 性 。 

因为 在 编译 时 就 知道 了 变量 和 算式 类 型 ， 所 以 可 以 在 执行 前 就 及 现 类 型 
不 匹配 错误 。 这 是 一 个 很 大 的 优点 。 另 外 ， 根 据 类 型 信息 在 编译 时 大 胆 
进行 优化 ， 可 以 提高 程序 执行 速度 。 


因为 有 这 样 的 优点 ，C++ 与 20 世纪 90 年 代 受 到 C++ 影响 诞生 的 Java， 
0 0 




















2.5.5 “静态 类 型 的 优点 


现在 静态 类 型 的 面 癌 对 象 编程 语言 被 广泛 使 用 。 首 先 ， 我 们 比较 一 下 静 
态 类 型 和 动态 类 型 的 优 缺 点 。 


静态 类 型 最 大 的 优点 是 在 编译 时 能 够 发 现 类 型 不 匹配 的 错误 。 当 然 ， 在 
编译 中 是 不 可 能 发 现 程序 中 所 有 问题 的 ， 但 是 由 于 很 多 问题 都 是 由 类 型 
不 匹配 引发 的 ， 所 以 虽然 不 能 发 现 全 部 问题 ， 但 这 种 目 动 发 现 问题 的 功 
能 对 我 们 的 帮助 还 是 很 大 的 。 


与 其 相反 ， 动 态 类 型 的 编程 语言 至 多 只 能 发 现 程序 语法 错误 。 


程序 中 如 果 明 确 指定 了 数据 类 型 ， 那 么 编译 时 可 以 用 到 的 信息 就 很 多 。 
利用 这 种 信息 可 以 在 编译 时 对 程序 做 优化 ， 提 高 程序 执行 速度 。 


数据 类 型 信息 不 只 是 对 编译 器 有 用 。 我 们 在 看 程序 的 时 候 , “这 个 参数 
征 什么 类 型 > 的 信息 对 我 们 理解 程序 也 是 有 很 大 帮助 的 。 集 成 开发 环境 


























CDE) 也 可 以 利用 这 些 信 息 来 自动 补充 完整 方法 名 。 这 些 功 能 的 实现 
都 得 益 于 可 以 利用 的 类 型 信息 。 


最 后 ， 变 量 和 算式 分 别 有 目 己 的 类 型 ， 这 使 得 我 们 能 够 在 一 开始 就 认真 
考虑 这 些 变量 应 该 扮演 什么 样 的 角色 。 我 们 在 编写 程序 时 就 要 考虑 数据 
类 型 ， 虽然 要 考虑 的 东西 变 多 了 ， 但 是 也 不 能 简单 地 说 这 是 坏事 。 显 而 
易 见 ， 这 是 我 们 开发 好 的 、 可 靠 性 高 的 程序 所 必需 的 。 


从 以 上 几 操 来 看 ， 静 态 类 型 似乎 全 都 是 优点 。 其 实 它 也 有 几 个 缺 皮 ， 或 


者 说 是 问题 。 


其 中 一 个 问题 是 ， 寿 不 指定 类 型 束 写 不 了 程序 。 当 然 ， 指 定 类 型 是 静态 
类 型 编程 语言 的 特征 之 一 。 但 是 说 到 底 ， 数 据 类 型 只 是 一 些 辅助 信息 ， 
并 不 是 程序 本 质 。 当 我 们 想 把 精力 集中 到 程序 处 理 的 实际 问题 时 ， 却 要 
一 个 个 考虑 数据 类 型 的 定义 ， 这 是 很 烦 开 的 。 并 且 ， 有 时 会 让 人 党 得 ， 
有 的 类 型 声明 仅仅 是 为 了 满足 编译 喜 的 要 求 。 程 序 规模 也 因为 数据 类 型 
的 定义 而 变 大 ， 重 要 的 部 分 反而 容易 被 忽视 。 


另外 一 个 是 灵活 性 的 问题 。 静 态 类 型 本 身 限 制 了 给 某 个 变量 只 能 赋值 茶 
种 类 型 的 对 象 ， 这 种 限制 可 能 成 为 妨碍 将 来 变化 的 柳 锁 。 前 面 学 过 的 多 
重 继承 和 接口 会 产生 令 人 费解 的 继承 关系 ， 这 时 怎样 设 定 适 当 的 类 型 就 
变 得 比较 困难 了 。 


总 结 一 下 ， 用 静态 类 型 编程 语言 的 人 通过 定义 类 型 ， 把 更 多 的 信息 传达 
了 出 来 ， 这 算是 给 编译 器 和 将 来 读 程 序 的 人 减轻 负担 的 一 种 方法 吧 。 


2.5.6 ”动态 类 型 的 优点 


前 面 介绍 了 静态 类 型 ， 那 么 动态 类 型 又 怎样 呢 ? 动态 类 型 编程 语言 的 最 
大 优点 是 源 代码 变 得 很 简洁 。 编 程 语言 的 进化 使 我 们 可 以 用 更 简单 的 程 
序 来 传达 给 计算 机 更 多 信息 。 如 果 不 用 指定 与 程序 本 质 无 关 的 数据 类 
型 ， 程 序 也 完全 可 以 正确 执行 ， 也 可 以 检测 出 来 错误 的 话 ， 这 不 是 一 种 
很 好 的 想法 吗 ? 


得 蔡 于 简洁 ， 我 们 在 编写 程序 的 时 候 丈 不 用 考虑 数据 类 型 这 些 无 关 本 质 
的 部 分 了 ， 而 是 可 以 集中 于 程序 处 理 的 本 质 部 分 ， 编 写 简洁 程序 的 话 ， 
也 可 以 提高 生产 力 。 


























曙 一 方面 ， 有 人 会 担心 ， 简 洁 的 程序 虽然 让 我 们 在 编程 的 时 候 变 得 简单 
了 ， 但 是 因为 没有 类 型 信息 ， 以 后 读 起 来 是 不 是 就 变 得 难以 理解 呢 ? 虽 
然 写 的 时 候 容 易 了 ， 但 难 读 的 程序 也 是 不 可 取 的 。 对 于 这 样 的 担心 ， 我 
的 回答 是 ， 简 洁 的 程序 更 突出 了 程序 处 理 的 实质 ， 理 解 起 来 反而 变 得 简 
单 了 。 实 际 上 ， 动 态 类 型 的 编程 语言 《例如 Ruby) 的 程序 规模 和 静态 
类 型 相 比 ， 程 序 行 数 相差 数 倍 的 情况 并 不 少见 。 很 多 人 都 感觉 到 动态 类 
型 的 程序 更 好 理解 。 


对 于 简洁 程序 的 另外 一 个 担心 是 ， 动 态 类 型 语言 是 否 运 行 缓慢 呢 ? 事实 
上 是 这 样 的 。 同 样 的 处 理 ， 在 大 多 数 情况 下 ， 静 态 类 型 编程 语言 运行 得 


要 快 些 。 


这 是 因为 动态 类 型 程序 执行 时 要 做 类 型 检查 。 态 外 ， 况 态 类 型 的 编程 语 
言 大 都 通过 编译 把 程序 源 代码 转换 成 可 以 直接 执行 的 形式 ， 而 动态 类 型 
的 编程 语言 大 多 是 边 解 释 源 代码 转换 成 内 部 形式 ) 边 执行 ， 这 种 编译 
型 处 理 和 解释 型 处 理 的 区 别 也 是 影响 程序 执行 速度 的 原因 之 一 。 说 起 程 
序 ， 很 多 时 候 执行 速度 并 不 是 很 重要 的 ， 随 看 计算 机 性 能 的 提高 ， 执 行 
速度 就 更 不 是 什么 严重 的 问题 了 。 

动态 类 型 编程 语言 的 男 外 一 个 特点 是 灵活 性 。 动 态 类 型 语言 的 程序 不 用 


旨 定 变量 的 数据 类 型 ， 所 以 即使 开发 时 没有 考虑 到 的 数据 类 型 也 可 以 轻 
松 地 处 理 。 这 种 灵活 性 的 关键 是 我 们 下 面 要 讲 的 Duck Typing 概念 。 


动态 类 型 编程 语言 的 最 大 缺点 是 不 执行 束 检 测 不 出 错误 。 和 静态 类 型 的 
自动 错误 检测 相 比 ， 这 算是 它 的 不 足 吧 。 












































2.5.7 只 关心 行为 的 Duck Typing 
表达 动态 类 型 灵活 性 的 概念 是 Duck Typing。 下 面 是 来 自 西方 的 一 句 格 





If it walks like a duck and quacks like a duck, it must be a duck〈 走 起 路 来 
像 鸭 子 ， 叫 起 来 也 像 鸭 子 ， 那 么 它 就 是 鸭子 〉。 


从 这 里 可 以 导出 这 样 的 规则 : 如 果 行 为 像 鸭 子 ， 那 么 不 管 它 是 什么 ， 就 
把 它 看 做 鸭子 。 根 本 不 考虑 一 个 对 象 属于 什么 类 ， 只 关心 它 有 什么 样 的 
行为 〈 它 有 哪些 方法 ) ， 这 就 是 Duck Typing。 提 出 Duck Typing 这 个 
概念 的 是 大 名 易 易 的 专家 程序 员 Dave Thomas。 


我 们 来 看 一 个 Duck Typing 的 具体 例子 。 假 设 有 一 个 例 程 logs_puts() 
， 问 文件 输出 日 志 消 息 。 假 定 这 个 方法 有 两 个 参数 (输出 对 象 和 要 输出 
息 )。 如 果 是 静态 类 型 编程 语言 ， 比 如 C++， 程 序 会 是 像 下 面 这 样 


void log puts(ostream out, char* msg); 





log_puts() 例 程 向 输出 out 里 输出 时 刻 和 消 肯 。 调 用 这 个 例 程 如 下 所 


AN 


log puts(cout,"message"); 


| 


cout (C++ 的 标准 输出 设备 ) 上 会 输出 如 下 日 志 。 


2065-606-16 16:23:53 message 


现在 ， 如 果 我 们 想 把 1og 输出 到 字符 串 而 不 是 文件 的 话 ， 那 该 怎么 办 
呢 ? 


因为 指定 输出 对 象 的 out 参数 的 类 型 已 经 定义 成 ostream ， 无 法 简单 
地 变更 ， 结 果 我 们 要 么 把 logs_puts() 这 个 例 程 全 部 复制 一 遍 ， 另 外 
新 增 一 个 以 字符 串 为 输出 对 象 的 例 程 ， 要 么 先 输 出 到 临时 文件 ， 然 后 再 
把 它 读 到 字符 串 里 ， 没 有 别 的 办 法 。 


那么 ， 如 果 使 用 Duck Typing 的 话 ， 会 变 成 怎样 灵活 的 代码 呢 ? 如 下 所 


log puts (out, msg) 


让 
了 
O 


因为 是 动态 类 型 ， 所 以 程序 中 不 用 指定 参数 的 类 型 ， 下 面 的 调用 会 和 
C++ 一 样 问 STDOUT (Ruby 的 标准 输出 设备 ) 输出 同样 的 日 志 。 


log puts (STDOUT, "message") 


好 了 ， 和 刚才 一 样 ， 现 在 我 们 想 把 信息 输出 到 字符 串 ， 有 了 Duck 
Typing 就 简单 多 了 。 任 何 对 象 ， 如 果 它 拥有 和 输出 对 象 “标准 输出 设 
备 ) 相同 的 方法 ， 那 么 就 可 以 用 它 作 为 输出 对 象 。 


Ruby 字符 串 有 和 文件 一 样 的 输入 输出 类 StringIO 。 图 2-34 演示 了 用 
StringI0 来 实现 输入 输出 。 


# 使 用 StringIO 类 库 
require 'stringio' 








# 生成 StringIO 对 象 
out = StringIO() 


# 和 文件 一 样 输出 


log puts(out, "message") 








# 表示 字符 串 结果 
puts out.string 




















图 2-34 Duck Typing 的 例子 ， 使 用 Ruby 的 StringI0 类 





StringI0 类 和 STDOUT 的 类 (I0 ) 没有 继承 关系 。 但 是 ，StringI0 
类 中 有 I0 类 的 所 有 方法 。 所 以 ， 几 乎 在 所 有 的 情况 下 ，StringI0 可 
以 像 I0 一 样 地 来 使 用 。 


如 采用 静态 语言 实现 相同 功能 ， 需 要 表 先 定义 一 个 具有 1og 输出 功能 的 
类 (在 Java 中 是 接口 ) ， 然 后 将 它 定义 为 log_puts 第 一 个 参数 的 类 
型 。 像 这 个 例子 ， 如 果 输 出 对 象 的 类 型 是 编程 语言 中 既 有 的 类 型 ， 那 就 
需要 重新 定义 为 外 一 个 对 象 来 表达 输出 对 象 。 即 使 是 在 刚 开 始 编写 程序 
的 时 候 就 采用 这 种 机 制 也 很 费事 ， 而 如 果 是 在 中 途 才 开始 引入 的 话 ， 程 
序 到 处 都 将 需要 大 规模 修改 。 


使 用 静态 类 型 语言 ， 程 序 员 通过 类 型 定义 提供 了 大 量 的 信息 ， 错 误 可 以 
尽早 检测 出 来 ， 程 序 确 保 可 以 执行 。 其 代价 是 ， 如 宋 类 型 设计 的 前 提 发 
生 了 变化 ， 为 保证 各 种 类 型 的 一 致 性 ， 所 有 关联 的 部 分 都 要 修改 。 动 态 





类 型 语言 因为 开始 就 不 需要 定义 数据 类 型 ， 所 以 适应 类 型 变化 的 能 力 比 
较 强 。 
那么 ， 动 态 类 型 语言 用 Duck Typing 的 概念 设计 时 要 遵循 什么 原则 呢 ? 


基本 原则 只 有 一 个 ， 了 最 低 限 度 是 只 要 掌握 下 面 这 个 基本 原则 应 该 就 没有 
问题 了 。 


2.5.8 ”避免 明确 的 类 型 检查 


有 时 需要 在 程序 中 检查 参数 的 数据 类 型 。 例 如 图 2-35， 如 有 果 和 希望 处 理 对 
象 是 字符 串 ， 自 然 就 会 想 在 不 是 String 类 对 象 的 时 候 ， 抛 出 异常 ， 报 


4 在 攻 、 己 
o 











if not obj.kind of?(String) 
raise TypeError, "not a string" 


end 














图 2-35 ”进行 明确 类 型 检查 的 例子 ， 在 变量 不 是 String 类 的 时 候 ， 抛 出 异常 


但 是 如 果 要 用 Duck Typing 的 概念 来 实现 程序 的 话 ， 怎 么 也 要 妨 厦 上 ， 
不 要 把 程序 写成 这 样 。 如 果 以 类 为 基准 进行 数据 类 型 检查 的 话 ， 就 会 像 
静态 编程 语言 一 样 失 去 灵活 性 。 无 论 如 何 都 想 检查 的 时 候 ， 也 不 要 检查 
对 象 是 否 属 于 茶 个 类 ， 而 是 要 检查 对 象 是 否 有 东 个 方法 〈 参 见 图 2- 
36) 。 























if not obj.respond to?("to_str") 
raise TypeError,"not a string" 
end 








图 2-36 用 方法 来 检查 数据 类 型 ， 只 接受 有 to_str 方法 的 对 象 





其 实 即使 不 检查 方法 ， 如 果 处 理 对 象 不 是 程序 所 期 符 的 对 象 ， 也 肯定 会 
出 现 找 不 到 方法 错误 。 


2.5.9 ”克服 动态 类 型 的 缺点 


动态 类 型 的 缺点 主要 有 三 个 ， 即 在 执行 时 才能 发 现 错误 、 访 程序 时 可 用 
到 的 线索 少 ， 以 及 运行 速度 慢 。 


首先 ， 执 行 时 才能 发 现 错误 这 一 点 可 以 用 完备 的 单元 测试 来 解决 。 如 宁 
能 严格 实行 完备 的 单元 测试 的 话 ， 即 使 没有 编译 时 的 错误 检查 ， 程 序 的 
可 徘 性 也 不 会 降低 。 


其 次 ， 读 程序 时 可 用 到 的 线索 少 这 一 点 可 以 通过 完整 的 文档 来 解决 。 
Java 有 JavaDoc 技术 ，Ruby 也 有 RDoc 技术 ， 可 以 在 源 代码 中 同时 写 
文档 ， 减 轻 维护 文档 的 负担 。 


最 后 ， 运 行 速度 慢 这 一 点 ， 随 着 计算 机 性 能 的 提高 已 经 不 再 重要 ， 现 在 
的 程序 开发 中 ， 程 序 的 灵活 性 和 生产 力 更 为 重要 。 


2.5.10 ”动态 编程 语言 


现在 我 们 对 程序 开发 生产 力 的 要 求 越 来 越 品 。 也 就 是 说 ， 要 在 更 短 的 时 
间 内 开发 出 更 多 的 功能 。 


开发 周期 短 ， 就 要 求 我 们 在 开发 过 程 中 不 断 探 求 最 合适 的 开发 方法 。 这 
又 被 称 为 "射击 移动 的 目标 ”。 像 以 前 那样 ， 一 开始 把 所 有 的 情况 都 考虑 
到 ， 在 确定 了 需求 之 后 再 进行 开发 的 方式 已 经 越 来 越 行 不 通 了 。 尽 快 着 
手 开 发 ， 快 速 应 对 需求 变更 的 开发 方式 变 得 越 来 越 重要 。 


在 这 种 快速 开发 模式 中 ，Duck Typing 所 代表 的 执行 时 的 灵活 性 就 非常 
有 用 。Ruby、Python、Perl 和 PHP 等 优秀 的 动态 类 型 编程 语言 ， 因 为 它 
们 在 执行 时 所 具有 的 灵活 性 而 越 来 越 受 到 人 们 的 关注 。 


























2.6 ”元 编程 


“元 ”一 词 来 源 于 希腊 语 中 表示 “..…. 之 间 ，.……. 之 后 ， 超 越 .……” 的 前 
级 “meta”， 有 “超越 "? 和 “高 阶 ” 等 意思 。 在 Ruby 和 其 他 一 些 面 问 对 象 编 
程 语言 中 ， 类 的 类 称 为 元 类 ， 支 撑 别 的 对 象 的 类 对 象 称 为 元 对 象 。 


元 编程 是 对 程序 进行 编程 的 意思 。 也 许 会 让 人 感觉 没什么 用 。 初 看 起 
来 ， 的 确 有 些 让 人 摸 不 者 头脑 ， 下 面 束 来 一 冕 元 编程 的 威力 吧 。 


























2.6.1 元 编程 
首先 我 们 看 一 个 Ruby 元 编程 的 例子 。 这 是 一 个 动态 生成 方法 的 示例 。 
在 Ruby 类 中 内 租 的 attr_accessor 方法 模块 可 以 动态 生成 访问 实例 


变量 的 方法 (参见 图 2-37) 。 在 图 2-37 简短 的 程序 中 ， 给 Person 类 
自动 生成 了 name 方法 和 age 方法 ， 也 可 以 用 它们 来 赋值 。 





class Person 
attr_accessor :name, :age 
end 


























图 2-37 元 编程 的 例子 。Ruby 使 用 attr_accessor 生成 访问 实例 变量 的 方法 〈 这 里 是 name 
和 age ) 





重要 的 是 ，attr_accessor 并 不 是 Ruby 中 的 一 个 语句 ， 而 是 Module 
类 提供 的 一 个 方法 ， 也 束 是 说 ， 如 果 你 愿意 的 话 ， 也 可 以 自己 来 定义 具 
有 类 似 功能 的 方法 。 
attr_accessor 内 部 进行 如 下 处 理 。 

1. 对 所 有 的 参数 作 以 下 的 处 理 。 


2. 生成 与 参数 名 同名 的 方法 。 用 该 方法 可 以 访问 “@ 参 数 名 ”这 个 实例 
变量 的 值 。 


3. 生成 参数 名 后 加 “=” 的 方法 。 该 方法 有 一 个 参数 ， 它 把 参数 的 值 赋 











给 “@ 参 数 名 ”这 个 实例 变量 。 


以 上 步骤 看 起 来 很 简单 ， 但 是 在 C 或 者 C++ 语言 中 是 很 难 实现 的 。 
为 在 C++ 等 程序 执行 时 ， 是 不 能 动态 地 给 类 增加 方法 的 。Ruby 可 以 像 
图 2-37 这 样 简单 地 实现 这 一 功能 。 实 际 上 attr_accessor 是 用 C 语言 
wy 如 果 用 Ruby 自己 来 号 这 个 方法 的 话 ， 会 像 图 2-38 的 程序 那 


class Module 


def attr accessor(*syms) 
syms .each do |sym| 
class eval %{ 
def #{sym} 
@#{sym} 
end 
def #{sym}=(val) 


@#{sym}=val 
end 
} 
end 
end 
end 











图 2-38 用 Ruby 自己 来 实现 attr_accessor 的 例子 


class_eval 方法 接受 字符 串 参 数 ， 在 类 的 上 下 文中 对 字符 串 进 行 处 
理 。 在 图 2-38 中 ， 从 %{ 到 } 之 间 的 字符 串 作 为 参数 传递 给 
class_eval 方法 。 字 符 串 中 #{ 和 } 之 间 是 可 以 替换 的 标识 符 ， 会 被 展 
开 成 sym 参数 所 代表 的 方法 名 ， 每 个 循环 定义 两 个 方法 。 因 此 ， 下 面 的 
调用 会 在 被 调用 的 对 象 类 中 生成 两 个 方法 : 一 个 方法 是 name ， 用 来 访 
人 的 值 ， 一 个 方法 是 name= ， 用 来 给 实例 变量 @name 
赋 信 。 


attr_accessor :name 


不 文 持 元 编程 的 编程 语言 实现 这 样 的 功能 是 很 麻烦 的 。 要 么 需要 扩展 语 
言 的 语法 ， 要 么 用 宏 定 义 等 预 处 理 的 方法 来 实现 。 无 论 怎样 ， 在 普通 语 

















言 中 这 都 会 很 及 烦 。 
2.6.2 ”反射 


下 面 说 明 一 下 元 编程 的 反射 (reflection〉 功能。reflection 这 个 英语 单词 
是 反射 、 反 省 的 意思 。 在 编程 语言 中 它 是 指 在 程序 执行 时 取出 程序 的 信 
居 或 者 改变 程序 信息 。 


表 2-3 列 出 了 Ruby 的 反射 功能 ， 包 括 取 得 变量 或 方法 ， 取 得 或 变更 值 
等 ， 很 丰富 。 比 如 实现 Mix-in 的 include 并 不 是 Ruby 的 语法 ， 而 是 
通过 方法 来 实现 的 。 所 以 说 Ruby 彻底 实现 了 对 程序 的 动态 操作 。 


表 2-3 ”Ruby 的 反射 功能 
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获取 类 的 继承 关系 Module#ancestors 


给 继承 设置 钩子 处 理 
给 方法 定义 设置 钩子 处 理 
给 特别 方法 定义 设置 钩子 处 理 
给 未 定义 的 方法 设置 钩子 处 理 















































在 对 象 的 上 下 文中 解释 字符 串 


现在 我 们 来 看 一 下 用 这 些 功能 到 底 都 能 实现 些 什 么 。 

2.6.3 ”元 编程 的 例子 

首先 看 一 下 反射 的 例子 。 

有 时 我 们 需要 把 对 一 个 对 象 的 调用 委派 给 男 外 一 个 对 象 。Ruby 用 
Delegator 这 个 库 实现 了 委托 功能 。Delegator 对 象 中 包含 有 方法 委 
托 的 对 象 ， 把 方法 调用 委派 给 委托 的 对 象 。 它 实现 了 设计 模式 中 Proxy 


模式 的 基础 部 分 。 要 使 用 Delegator 功能 ， 可 以 用 SimpleDelegator 
这 个 类 。 




















require 'delegator' 
d = SimpleDelegator .new(a) 





只 用 这 两 句 就 可 以 实现 ， 调 用 对 象 d 的 方法 时 可 以 转变 为 调用 对 象 a 的 
方法 。 仅 仅 是 委派 的 话 也 没有 什么 让 人 高 兴 的 ， 实 际 上 我 们 可 以 给 这 个 











对 象 增加 特异 方法 :来 改变 它 的 部 分 行为 ， 这 就 大 大 扩展 了 它 的 应 用 范 


1 所 请 特异 方法 ， 是 指 类 中 没有 定义 而 只 存在 于 实例 (对 象 》 中 的 方法 。Ruby 以 外 的 其 他 语言 
也 会 用 到 。 











这 种 处 理 在 Java 中 如 何 实 现 呢 ?在 静态 类 型 编程 语言 Java 中 ， 因 为 需 


要 匹配 类 型 ， 所 以 要 另外 生成 一 个 Delegator 类 ， 专 门 对 应 a 的 类 型 
来 传送 每 个 方法 调用 。a 的 方法 如 果 很 多 的 话 ， 这 将 是 很 烦琐 的 工作 。 
了 恐怕 需要 用 专门 的 工具 来 自动 生成 才 行 。 


而 Ruby 通过 动态 类 型 的 反射 功能 第 一 个 实现 了 Delegator 。 

2.6.4 使 用 反射 功能 

让 我 们 来 看 看 Ruby 是 怎样 用 反射 功能 来 实现 Delegator 这 个 类 的 。 图 
2-39 是 SimpleDelegator 类 的 部 分 代码 。 为 了 容易 理解 ， 例 子 中 程序 
被 大 幅度 简化 了 。 


class SimpleDelegator 








#(a) 方 法 的 初始 化 

Preserved = [" id ","object_ 
id"," send ","respond to?"] 
instance methods.each do |m| 
next if preserved.include?(m) 
undef method m 

end 


#(b) 对 象 初始 化 

def initialize(obj) 
Q@_ sd _ obj = obj 

end 


#(c)method missing 
def method missing(m, *args) 
unless @ sd obj.respond_ to? (m) 
super(m, *args) 
end 
@ sd obj. send (m, *args) 
end 





#(d) 方 法 确认 
def respond to? (m) 

return true if super 

return @_sd obj.respond to?(m) 
end 





end 





图 2-39 SimpleDelegator 的 代码 


图 2-39 的 程序 分 为 4 个 部 分 。 首 先 说 明 最 重要 的 。 图 2-39c 是 
Delegator 的 核心 部 分 。Ruby 在 调用 方法 时 ， 如 果 对 象 不 知道 这 个 方 
法 ， 就 会 首先 调用 method_missing 这 个 方法 。method_ missing 的 第 
一 个 参数 是 被 调用 的 方法 的 名 字 ， 剩 下 的 是 传 给 方法 的 参 

数 。method_missing 的 默认 实现 是 进行 异常 处 理 的 ， 但 通过 重 载 ， 也 
可 以 处 理 未 知 的 方法 。 接 痢 说 明 下 面 的 两 个 处 理 。 


1. 被 委派 的 对 象 如 果 不 知道 这 个 方法 (respond_to?) ， 默 认 的 实现 会 
被 调用 (super) ， 发 生 错 误 。 


2. 知道 的 话 ， 用 __send__ 来 调用 委派 对 象 的 方法 。 


send _ 是 调用 委派 对 象 方法 的 方法 。 这 个 方法 的 别名 是 send ， 由 
于 send 容易 重 名 ， 上 所 以 用 了 __send 。 


SimpleDelegator 剩 下 的 部 分 比较 容易 实现 。 就 像 刚才 说 明 

的 ，SimpleDelegator 是 通过 method_ missing 来 委派 方法 的 。 但 是 
Ruby 的 0bject 类 有 很 多 方法 ， 是 个 很 大 的 类 。 实 际 上 0bject 类 有 
40 多 个 方法 。SimpleDelegator 是 0bject 的 子 类 ， 是 知道 这 40 多 个 
方法 的 ， 也 就 不 能 委派 。 为 解决 这 一 问题 ，(a) 中 用 
instance_methods 获取 方法 的 列表 ， 除 了 几 个 必要 的 方法 ( __id__ 
、object id、 send 、respond to? ) 以 外 ， 取 消 了 其 他 方法 
的 定义 。 


(b) 用 于 设 定 SimpleDelegator 的 委派 对 象 。 (d) 是 为 了 让 
respond_to? 可 以 正常 执行 ， 首 先 用 super 检查 自己 的 方法 ， 然 后 检 
但 委派 对 象 的 方法 。 











2.6.5 分布 式 Ruby 的 实现 


Delegator 将 被 调用 的 方法 直接 委派 到 其 他 对 象 ， 这 一 功能 在 很 多 领域 都 
有 应 用 。 作 为 一 个 例子 ， 我 们 介绍 一 下 dRuby (Distributed Ruby， 分 布 
式 Ruby) 。 


dRuby 是 通过 网 络 来 调用 方法 的 库 。dRuby 可 以 生成 服务 器 上 存在 的 远 
程 对 象 (Proxy ) ，Proxy 的 方法 调用 可 以 通过 网 络 执行 。 


调用 的 方法 在 服务 器 上 的 远程 对 象 中 执行 ， 执 行 结果 可 以 通过 网 络 返 
回 。 这 和 Java 的 RMI (Remote Method Invocation〉 功能 比较 相似 。 但 
是 ， 利 用 Ruby 的 元 编程 功能 ， 不 用 明确 定义 接口 ， 也 可 以 通过 网 络 调 
用 任意 对 象 的 方法 。 

C++ 和 Java 的 远程 调用 是 用 IDL (Interface Definition Language) 等 语言 
来 定义 接口 的 ， 自 动 生 成 的 存根 (stub〉 必须 编译 和 连接 。 和 这 些 相 
比 ，Ruby 的 元 编程 更 简单 。 


dRuby 的 最 初版 本 只 有 200 多 行程 序 ， 这 也 体现 了 元 编程 的 力量 。 但 是 
现在 dRuby 作为 Ruby 的 标准 库 ， 已 经 有 2000 多 行 的 规模 了 。 


2.6.6 ”数据 库 的 应 用 

在 数据 库 领 域 ， 元 编程 也 很 有 用 。 

Web 应 用 程序 框架 Ruby on Rails (也 称 为 Rails 或 RoR) “中 也 应 用 了 
元 编程 。 具 体 地 说 ， 在 与 数据 库 关 联 的 类 库 (ActiveRecord ) 中 ， 逢 
用 元 编程 简单 地 把 数据 记录 定义 为 对 象 。 


2 在 Ruby on Rails 中 ， 仅 仅 从 数据 库 定义 就 可 以 自动 生成 相关 的 程序 和 配置 文件 ， 非 常 便利 。 
详情 请 参阅 Rubyist Magazine (http://jp.rubyist.net/magazine/?0004-RubyOnRails ) 的 介绍 资料 。 
































图 2-40 是 ActiveRecord 定义 数据 库 的 例子 。 然 后 ， 数 据 库 中 定义 了 
表 。 图 2-41 中 演示 了 对 应 users 表 的 User 类 。 


Class User «< ActiveRecord: :Base 
has_one :profile 
has_many :item 

end 


class Profile «< ActiveRecord: :Base 
belongs to :user 


end 


class Item < ActiveRecord::Base 
belongs to :user 
end 





图 2-40 用 ActiveRecord 定义 的 记录 
CREATE TABLE “users ( 


id” int(11) NOT NULL auto increment, 
login varchar(86) default NULL， 
‘password varchar(46) default NULL， 
PRIMARY KEY(` id`) 


) TYPE=MyISAM; 











图 2-41 图 2-40 用 到 的 users 表 
从 图 2-40 中 几 行 代码 可 以 看 出 ，ActiveRecord 进行 如 下 的 处 理 。 


1. er 是 和 以 类 名 的 复数 形式 为 名 字 的 表 (users ) 关联 在 一 起 


2. 定义 了 从 表 的 命名 空间 (schema ) 访问 记录 的 方法 。 


3, 用 has_one 、belongs_to 等 关联 定义 ， 提 供 了 访问 关联 对 象 的 方 
法 。 


之 所 以 能 够 实现 这 些 处 理 ， 都 是 由 于 元 编程 功能 让 我 们 可 以 获取 类 名 ， 
在 执行 时 增加 方法 。 元 编程 的 功能 使 得 Rails 被 称赞 为 生产 效率 高 的 
Web 应 用 程序 框 染 。 


当然 Rails 不 是 万 能 的 ， 也 不 能 说 比 别 的 应 用 程序 框架 都 好 。 但 是 ， 
Rails 最 大 程度 地 灵活 运用 了 Ruby 语言 的 优点 ， 从 而 确实 提高 了 生产 效 











用 Rails， 一 皮 眼 的 功夫 就 可 以 生成 一 个 Web 应 用 程序 ， 给 人 印象 颇 
深 。 


2.6.7 ”输出 XML 


最 后 介绍 一 下 输出 XML 文件 的 类 库 ， 由 Jim Weirich 开发 的 
XmlMarkup 。 图 2-42 是 一 个 输出 XML (参见 图 2-43) 的 简单 程序 。 


require "builder/xmlmarkup 


xm = Builder: :XmlMarkup.new(:indent => 2) 
puts xm.html { 


xm.head { 
xm.title("History") 


xm.body { 
xm.h1i("Header") 
xm.p { 
xm.text!("paragraph with ") 
xm.a("a Link","href"=>"http://onestepback. 
org")} 








图 2-42 XmlMarkup 输出 的 例子 


<html> 
<head> 
<title>History</title> 
</head> 
<body> 
<h1>Header</h1> 
<p> 
paragraph with <a 


href="http://onestepback.org">a 
Link</a> 
</p> 
</body> 
</html> 





图 2-43 图 2-42 的 输出 内 容 





Builder: :XmlMarkup 和 Delegator 同样 用 到 了 method_missineg 的 
技巧 ， 通 过 调用 方法 从 而 输出 了 有 标签 的 XML。 


没有 标签 的 文本 必须 用 text! 命令 输出 。 手 工 写 XML 是 很 麻烦 的 ， 利 
用 Ruby 块 功 能 则 能 很 方便 地 处 理 。 


2.6.8 ”元 编程 和 小 编程 语言 


到 目前 为 止 我 们 介绍 了 元 编程 功能 ， 如 果 是 你 ， 会 怎么 来 利用 它 呢 ? 





Glenn Vanderburg 3 把 它 灵 活 运用 到 了 DSL (领域 特定 的 语言 〉 领 域 。 
DSL 是 针对 特定 领域 强化 了 功能 的 小 规模 编程 语言 。DSL 是 很 早 就 有 
的 想法 ， 最 近 ， 因 为 通过 DSL 用 户 可 以 强化 应 用 程序 的 功能 或 者 定制 
0 所 以 DSL 再 次 得 到 了 关注 。DSL 主要 需要 列 于 表 2-4 的 一 
些 功 能 。 








3 请 参考 Glenn Vanderburg 的 Metaprogramming Ruby Domain-Specific Language for Programmers 
(http://www.vanderburg.org/Speaking/Stuff/oscon05.pdf ) 。 


表 2-4 小 语言 需要 必 备 的 功能 


必要 的 功能 Ruby 的 功能 





oo 与 实现 相关 ) 


相 3 
术 


术 
与 目 关 ) 
词汇 (Large Vocabulary ) 


Ruby 本 来 束 具 备 从 类 型 到 控制 结构 这 些 功 能 。 许 多 DSL 小 语言 往往 缺 
之 其 中 一 些 功能 ，Ruby 反而 更 好 使 。 还 有 前 面 学 过 的 Ruby 可 以 利用 块 
目 己 定义 实现 控制 结构 的 方法 ， 这 也 是 它 的 优点 之 一 。 


剩 下 的 从 声明 到 层次 数据 等 其 他 的 功能 ，Ruby 也 都 可 以 利用 上 自身 的 功 
能 来 实现 。 元 编程 对 实现 这 些 功能 起 到 了 很 大 的 作用 。 


2.6.9 ”声明 的 实现 




















我 们 介绍 一 下 表 2-4 中 声明 的 实现 方法 。 


之 前 我 们 介绍 了 使 用 attr_accessor 进行 元 编程 的 例子 。 在 Ruby 中 
attr_accessor 只 是 一 个 方法 ， 但 是 我 们 也 可 以 把 它 看 做 声明 。 男 
外 ，ActiveRecord 中 的 has_many 方法 ， 也 可 以 看 做 声明 ， 这 样 的 例 
子 还 有 很 多 。 


Ruby 的 方法 可 以 读 取 或 改变 程序 目 身 的 状态 ， 利 用 普通 的 方法 调用 ， 
可 以 实现 其 他 编程 语言 中 声明 所 完成 的 工作 。 


从 外 部 来 看 ，Ruby 的 方法 调用 可 以 省 略 括号 ， 还 可 以 使 用 foo 这 样 的 
符号 来 表示 名 字 ， 这 些 都 使 Ruby 程序 看 起 来 像 在 使 用 声明 一 样 。 


2.6.10 ”上下文 相关 的 实现 


下 面 讲 一 下 上 下 文 相 关 。 上 下 文 相关 是 指 有 些 定义 只 是 在 一 定 范围 内 有 
效 。 我 们 看 一 下 图 2-44 的 例子 。 


add user { 











name "Charles" 
password "hello123" 
privilege normal 








图 2-44 上 下 文 相 关 的 程序 示例 


这 个 例子 中 ，name 、password 等 方法 只 是 在 add_user 块 中 才 有 效 。 
也 就 是 说 ， 在 add_user 的 外 部 是 看 不 到 这 些 方法 的 。 


在 Ruby 这 一 层次 上 ， 它 把 块 范围 内 的 方法 调用 对 象 换 成 了 self 。 具 
体 说 来 ， 像 图 2-45 的 例子 ， 使 用 了 instance_eval 方法 。 








def add user(&block) 


U = User.new 

# User 定义 了 name、password、 

# privilege 方法 

u.instance eval(&block) if block 




















图 2-45 ”替换 图 2-44 程序 上 下 文 的 处 理 


instance_eval 方法 接受 块 作为 参数 ， 把 调用 对 象 置换 成 self 来 执行 
块 。 结 果 ， 对 图 2-44 中 块 范围 内 的 代码 而 言 ， 默 认 的 调用 对 象 变 成 了 
User 类 的 对 象 u 。 所 以 ， 在 不 指定 调用 对 象 而 调用 方法 (如 name 等 ) 
时 ， 就 会 调用 User 类 的 方法 。 














2.6.11 单位 的 实现 


在 一 般 的 编程 语言 中 ， 数 值 是 用 标量 值 来 定义 的 ， 但 这 只 是 数 本 身 。 数 
值 的 单位 需 程 序 员 来 管理 。 


然而 ，DSL 想 要 处 理 的 不 单 是 数 ， 大 都 想 要 处 理 量 。 因 此 我 们 扩展 了 一 
些 面 同 DSL 的 库 ， 以 便 能 处 理 单 位 。 


例如 在 Ruby on Rails 中 ，Numeric 类 和 Timer 类 增加 了 处 理 时 间 单 位 
《基本 单位 是 秒 ) 的 方法 。 比 如 下 面 的 时 间 


3.years + 13.days + 2.hours 














表示 “3 年 13 天 又 2 小 时 ”， 以 秒 为 单位 束 是 整数 95 803 200。 男 外 像 下 
面 这 样 : 


4.months.from now.monday 


表示 “4 个 月 后 的 星期 一 ”。 
我 写 这 本 书 的 时 间 是 


Mon Dec 12 66:60:66 JST 2665 


| | 


这 里 只 是 举 了 一 些 与 时 间 相关 的 例子 。 因 为 Ruby 中 可 以 给 现 有 类 目 由 
地 人 退 加 新 方法 ， 所 以 单位 处 理 功能 是 很 容易 实现 的 。 





2.6.12 ”词汇 的 实现 


DSL 是 针对 特定 领域 的 ， 所 以 在 这 个 特定 领域 都 需要 什么 处 理 ， 需 要 用 
词汇 来 表现 。 针 对 特定 领域 ， 如 采用 Ruby 来 定义 需要 的 类 和 方法 ， 那 
么 驶 可 以 认为 Ruby 古 这 个 领域 的 专用 语言 。 这 些 类 和 方法 可 以 称 为 这 
个 领域 的 词汇 。 


音 用 著名 的 程序 员 Dave Thomas 的 话 , “所 有 应 用 程序 的 开发 过 程 都 可 

以 说 是 设计 语言 的 过 程 >。 从 这 个 观点 来 看 ， 开 发 应 用 程序 就 是 针对 应 

0 0 最 后 用 这 些 词汇 来 描述 解决 问题 的 方 
法 。 


Ruby 的 方法 调用 和 块 等 具有 丰富 的 表现 力 ， 用 户 可 以 很 自然 地 用 它们 
来 定义 词汇 。 另 外 如 果 一 开始 决定 不 了 要 用 的 词汇 ， 那 么 像 
Delegator 、XmlMarkup 一 样 ， 可 以 用 method_missing 这 个 方法 来 
动态 地 追加 和 利用 词汇 。 


2.6.13 ”层次 数据 的 实现 
最 后 说 明 一 下 表 2-4 最 后 的 层次 数据 。 前 面 的 XmlMarkup 就 是 层次 数 


据 ， 我 们 可 以 再 看 一 下 图 2-42。 程 序 本 身 看 起 来 只 不 过 是 以 块 为 参数 其 
套 调 用 方法 ， 而 外 观 和 功能 都 漂亮 地 实现 了 数据 的 层次 化 。 
































2.6.14 ”适合 DSL 的 语言 ， 不 适合 DSL 的 语言 

总 的 来 看 ，Ruby 是 非常 适合 DSL 的 语言 。 

首先 ， 调 用 方法 的 时 候 可 以 省 略 括号 ， 这 些 表 现 的 多 样 性 使 得 程序 看 起 
来 像 是 在 使 用 声明 一 样 。DSL 的 必要 功能 很 多 都 用 数据 构造 、 设 定 等 声 
明 来 定义 ， 所 以 Ruby 对 声明 的 支持 是 很 重要 的 。 


其 次 ， 元 编程 功能 可 以 获取 并 更 新 程序 的 信息 ， 所 以 不 必 使 用 预 处 理 和 
宏 就 可 以 实现 DSL 必要 的 功能 。 像 这 样 不 用 对 语言 进行 扩展 就 可 以 实 











现 DSL 的 方法 也 称 为 “语言 内 DSL”。 


适合 语言 内 DSL 的 编程 语言 不 只 是 Ruby。 对 Ruby 影响 很 大 的 Lisp 和 
Smalltalk 也 和 Ruby 一 样 适合 DSL。 特 别 是 Lisp， 原 则 上 固定 语法 只 有 
S 式 这 种 数据 结构 表现 形式 ， 几 乎 是 可 以 构成 任何 语言 内 语言 。 


Ruby 可 以 用 eval 处 理 字符 串 来 生成 程序 ，Lisp 则 可 以 用 宏 处 理 列表 来 
实现 对 程序 的 处 理 。 所 以 有 人 把 Lisp 称 为 Programmable Programming 
Language《〈 可 编程 的 编程 语言 ) 。 


Smalltalk 虽然 不 像 Lisp 那样 极端 ， 但 是 它 的 动态 性 并 不 比 Ruby 差 ， 另 
外 还 具有 元 编程 的 功能 。Smalltalk 的 控制 结构 本 来 就 是 用 块 来 实现 的 ， 
所 以 语法 扩展 也 是 自然 天 成 的 。 


反之 ， 有 的 编程 语言 ， 如 果 不 用 别 的 方法 就 不 容易 实现 DSL。 比 如 
C++、Java 和 C# 等 语言 就 不 能 像 Ruby、Lisp 和 Smalltalk 那样 实现 
DSL.。 


但 这 并 不 是 说 这 些 语言 中 不 能 使 用 DSL 方法 ， 比 如 说 目 动 生成 程序 代 
码 。 首 先 定义 好 DSL 用 的 小 语言 ， 然 后 编译 成 C++、Java 和 C# 等 目标 
语言 。 编 译 器 经 常用 到 Ruby 这 种 具有 优秀 文本 处 理 功 能 的 语言 。Code 
Generation in Action 4 一 书 讲解 了 这 个 主题 。 























4 Code Generation in Action , Jack Herrington 车 ，ISBN 1-930-11097-9。 主 要 讲解 Java 程序 的 代 
码 生 成 。 代 码 生成 程序 都 是 用 Ruby 写 的 ， 所 以 也 可 以 说 它 是 并 未 明说 的 Ruby 书 。 


另外 一 个 实现 DSL 方法 的 例子 是 解释 器 。 比 如 开发 应 用 程序 时 从 设计 
到 实现 是 很 复杂 的 ， 可 以 利用 固定 的 语法 和 类 库 函 数 来 读 取 程 序 。 


有 具体 的 方法 是 用 XML、DOM (Document Object Model) 等 XML 处 理 
类 库 来 解释 小 语言 语法 。 这 是 Java 应 用 程序 的 配置 文件 采用 XML 的 原 
因 之 一 。 通 过 XML 文件 ， 不 用 每 次 编译 Java 程序 就 可 以 改变 配置 ， 定 
制程 序 的 行为 。 


， 法 可 以 把 XML 称 为 Java 界 的 DSL， 或 者 是 Java 应 用 程序 的 脚 
TD 言 。 


实用 主义 


























前 面 提 到 了 ， 面 同 对 象 的 概念 是 从 仿真 和 和 人工 乔 能 的 知识 表现 、 数 据 
结构 等 很 多 领域 独立 发 展 出 的 一 些 思想 互相 融合 而 成 的 。 所 以 ， 对 于 
和 
论 的 时 期 。 


但 是 ， 在 21 世 纪 的 今天 ， 这 种 争论 已 经 不 多 见 了 。 虽 然 不 是 很 清楚 原 
因 ， 不 过 以 个 人 所 见 ， 我 觉得 是 因为 面 疝 对 象 已 经 变 成 了 常识 性 的 设 
计 方 法 。 


新 的 热门 话题 当然 容易 引发 争论 ， 但 对 常识 性 的 东西 就 不 会 再 有 人 和 争 
论 了 。 目 前， 大 多 数 编程 语言 都 具有 面 癌 对 象 的 功能 ， 最 具 人 和 气 的 面 
向 对 象 编程 语言 是 Java。 关 于 面向 对 象 再 发 生 争 论 的 可 能 性 应 该 没有 
了 吧 。 


当然 ， 面 向 对 象 也 分 为 几 个 流派 。Smalltalk 派 是 发 送 消息 ，C++ 派 是 
数据 结构 化 ， 还 有 其 他 各 种 折 中 方案 。 但 是 各 个 流派 之 间 的 所 谓 对 立 
都 不 过 是 纸上谈兵 ， 体 验 了 各 种 面 癌 对 象 语言 之 后 就 会 感觉 到 ， 其 实 
他 们 并 没有 什么 真正 的 对 立 。 就 像 中 国 的 一 句 俗 语 说 的 , “无 论 白 猫 
黑 猫 ， 抓 到 老鼠 就 是 好 猫 >， 面 向 对 象 编程 的 实用 性 已 经 确定 了 。 


就 像 20 世纪 70 年 代 曾 红 极 一 时 的 结构 化 编程 已 经 变 为 常识 不 再 成 为 
话题 一 样 ， 我 以 前 也 预想 过 面 癌 对 象 编 程 早晚 也 会 一 样 。 现 在 这 一 预 
想 已 经 成 为 了 现实 。 

















第 3 章 程序 块 
3.1 程序 块 的 威力 


让 我 们 来 说 明 一 下 Ruby 的 特色 功能 之 一 一 一 程序 块 吧 。Ruby 的 程序 块 
是 指 在 方法 调用 时 可 以 奶 加 的 代码 块 。 


比如 ， 在 对 数组 各 个 元 素 作 循 环 处 理 时 ， 请 看 以 下 程序 。 


ary.each {|x| puts x} 


在 这 个 例子 中 ，{|x| puts x} 就 是 程序 块 。 这 一 行程 序 就 表示 把 数组 
中 各 元 素 赋 值 给 变量 x ， 调 用 puts 函数 。 


程序 块 功能 并 非 Ruby 首创 。Ruby 只 是 把 其 他 语言 中 已 经 存在 的 功能 ， 
在 语法 上 重新 配置 了 一 下 。 作 为 程序 块 功能 构想 的 一 部 分 ， 下 面 我 们 将 
把 其 他 语言 中 的 这 些 功能 也 一 起 说 明 一 下 。 


3.1.1 把 函数 作为 参数 的 高 阶 函 数 


Ruby 程序 块 功能 的 原理 和 高 阶 函 数 是 一 样 的 。 高 阶 函 数 是 指 以 函数 作 
为 参数 的 函数 。 

为 了 实现 高 阶 函数 ， 编 程 语 言 中 必须 把 函数 和 方法 作为 数据 来 处 理 。 比 
如 说 ，FORTRAN 等 编程 语言 就 无 法 实现 高 阶 函数 的 功能 ， 而 C 语言 就 
可 以 。C 语言 是 通过 函数 指针 来 把 函数 作为 一 种 对 象 1 来 处 理 的 。 

1 在 C 语言 中 ， 对 象 是 指 可 以 处 理 的 数据 。 这 种 数据 一 般 被 称 为 第 一 类 数据 (first class 


data) 。 





























C 语言 的 库 函 数 中 也 用 到 了 高 阶 函 数 。 得 到 广泛 应 用 的 qsort(3) “函数 
就 是 一 个 高 阶 函 数 。qsort 函数 的 参数 如 图 3-1 所 示 。 其 中 第 4 个 参数 
是 compar 函数 的 指针 。 











2 qsort(3) 是 UNIX 使 用 手册 中 第 3 部 分 的 qsort 的 意思 。 第 3 部 分 是 库 函 数 。 另 外 ， 第 
部 分 是 命令 ， 第 2 部 分 是 系统 函数 调用 。 


du 
上 一 











#include <stdlib.h> 


void qsort(void *base, size t nmemb, size t size, int (*compar)(const 








图 3-1 qsort(3) 的 API 的 内 容 ， 第 4 个 参数 是 compar 函数 的 指针 


在 qsort 函数 的 参数 中 ，base 是 数组 的 内 存 地 址 ，nmemb 是 数组 元 素 
的 个 数 ，size 是 各 个 元 素 的 大 小 。qsort 的 实现 用 到 了 快速 排序 的 算 
法 。 为 了 排序 ， 各 个 元 素 需 要 比较 大 小 ，compar 是 比较 六 小 的 函 

数 。compar 函数 有 两 个 参数 分 别传 入 要 比较 的 数据 ， 第 一 个 参数 值 大 
时 返回 正 值 ， 两 个 参数 值 相 等 时 返回 0， 第 一 个 参数 值 小 时 返回 负 值 。 


让 我 们 看 一 下 qsort 的 具体 使 用 方法 。 图 3-2 是 使 用 qsort 的 一 个 程 
序 示例 。 命 令 行 的 参数 作为 要 排序 的 字符 串 传递 给 了 qsort 函数 3 。 程 
序 的 执行 结果 如 图 3-3 所 示 。 


3 为 了 使 程序 示例 简单 些 ，argv[8] 的 程序 名 也 一 起 参加 排序 。 























#include “stdio.hy> 


int compare(void *a, void *b) 
{ 
return strcmp(*(char**)a, *(char**)b); 


} 


int main(int argc, char ** argv) 
{ 


int i; 


qsort(argv, argc, sizeof(char*), compare); 
for (i=0; ic<argc;i i++){ 

printf("%d: %s\n", i, argv[i]); 
} 


return 0; 




















图 3-2 qsort 的 使 用 示例 





a.out 3425 6 7 
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图 3-3 图 3-2 的 执行 结果 


因为 用 qsort 来 给 字符 串 排 序 ， 所 以 比较 函数 的 参数 用 到 了 子 符 
串 (char*#) 的 指针 。 这 种 指向 指针 的 指针 是 有 一 些 难 度 的 。 


3.1.2 C 语 言 高 阶 函数 的 局 限 
下 面 ， 我 们 再 看 一 个 C 语言 的 例子 。Ruby 程序 有 实现 哈 希 表 的 类 库 4 
































4 哈 希 是 使 用 指定 的 随机 数 作 为 输入 数据 生成 值 的 方法 。 


这 个 类 库 提 供 了 按 顺 序 操作 哈 希 表 各 个 元 素 的 函数 st_foreach() 〈 见 
图 3-4) 。st_foreach 为 每 个 哈 布 元 素 传递 键 、 值 和 foreach 的 第 3 
个 参数 ， 一 共 3 个 参数 。 第 3 个 参数 arg 会 被 再 传送 给 func 这 个 函 
数 。 为 什么 需要 arg 这 这 个 参 数 呢 ? 





int st foreach(st table *table, int (func*)(st data t, st data t, st data t 
st data t arg); 


























图 3-4 st_foreach() 函数 的 定义 ， 按 顺序 处 理 哈 希 表 的 各 个 元 素 


这 是 因为 在 C 语言 中 ， 实 现 函 数 间 的 信息 传递 只 有 两 种 方法 : 要 么 明确 
地 传递 参数 ， 要 么 使 用 全 局 变量 ， 没 有 其 他 方法 。 


但 是 如 果 使 用 全 局 变量 来 传递 信息 ， 就 搞 不 清楚 什么 时 候 、 谁 在 引用 或 
者 更 新 这 一 变量 ， 也 不 能 进行 递归 调用 。 除 了 全 局 变量 之 外 ， 没 有 别 的 
办 法 在 函数 间 共 至 信息 ， 这 是 C 这 种 语言 的 局 限 。 

















3.1.3 ”可 以 保存 外 部 环境 的 财 包 


C 语言 中 的 这 种 局 限 在 Java 等 语言 中 也 是 存在 的 。 而 在 Ruby 中 ， 增 加 
了 引用 函数 外 部 变量 的 功能 。 

图 3-5 显示 的 是 从 列表 中 提取 出 指定 长 数据 的 Ruby 程序 6 。select 
是 把 块 执行 结果 为 真 的 数据 集中 到 数组 中 的 方法 。 所 以 ，high_paid 方 
法 可 以 返回 工资 是 150 以 上 的 数组 。 

5 应 为 指定 大 小 。 











译 者 注 








6 图 3-5 的 程序 引用 了 Martin Fowler 的 文章 Closure 并 且 做 了 改编 
(http://martinfowler.com/bliki/Closure.html ， 日 语 网 页 http://capsctrl.que.jp/kdmsnr/wiki/bliki/? 
Closure ) 。 











def high_paid(emps) 


threshold = 156 
return emps.select {|e| e.salary > threshold} 


end 

















图 3-5 ”从 列表 中 提取 出 指定 长 数据 的 Ruby 程序 ， 程 序 中 用 到 了 块 


和 上 文 关 于 C 语言 指针 的 例子 相 比 较 就 不 难 发 现 ，Ruby 具有 以 下 两 个 
易于 使 用 的 优点 。 


。 可 以 在 使 用 的 时 候 定 义 ; 
。 可 以 引用 外 部 的 局 部 变量 。 


当然 ，Java 的 匿名 类 和 C 语言 的 函数 指针 也 能 实现 同样 的 功能 ， 但 是 不 
会 像 图 3-5 中 的 程序 那样 简练 。 


在 块 中 可 以 引用 外 部 局 部 变量 的 方法 ， 这 说 明 块 不 只 是 简单 的 程序 代 
码 ， 而 且 把 外 部 “环境 ”也 包括 了 进来 ， 像 这 样 的 块 称 为 闭 包 。 通 常 的 局 
部 变量 在 方法 执行 结束 时 就 不 存在 了 ， 但 是 如 果 被 包括 进 了 闭 包 ， 那 么 
在 闭 包 存在 期 间 ， 局 部 变量 也 会 一 直 存 在 。 




















3.1.4 块 的 两 种 使 用 方法 


让 我 们 来 详细 看 一 下 Ruby 的 块 。Ruby 的 块 是 可 以 追加 给 调用 方法 的 代 
码 块 ， 块 目 身 并 不 是 对 象 〈 对 象 化 后 的 块 是 朵 包 ) 。 参 数 传递 的 方法 和 
普通 函数 不 同 。 仔 细 看 一 下 下 面 这 一 行程 序 。 


ary.each {|x| puts x} 


我 们 可 以 得 出 以 下 几 点 : 

。 调用 了 ary 对 象 的 each 方法 ; 

。 没有 普通 参数 ; 

。 附加 了 块 。 

在 被 调用 的 方法 中 有 两 种 方式 来 使 用 传递 过 来 的 块 。 一 种 是 用 “ 块 参 
数 ” 的 方式 明确 声明 接受 块 作为 参数 ， 男 一 种 是 使 用 yield 这 个 Ruby 
的 保留 词 。 图 3-6 演示 了 块 参 数 的 使 用 方法 ， 以 及 用 块 参 数 定 义 数 组 循 
环 处 理 的 each 方法 。 

&block 是 块 参 数 。 块 通过 闭 包 的 形式 被 传递 给 了 each 方法 的 块 参 


数 。 如 果 调 用 时 参数 中 没有 块 ， 那 么 nil 会 被 作为 参数 传 入 。 在 图 3-6 
中 ， 块 参数 的 调用 使 用 了 闭 包 的 call 方法 。 











def each(&block) 
i=@ 
while i < self.size 
block.call(self[i]) 
i+=1 


end 
end 











图 3-6 块 作为 参数 的 使 用 方法 1， 定 义 了 块 并 且 调 用 了 block.call 


在 图 3-7 中 用 yield 来 作 块 的 处 理 。 从 表面 来 看 ， 和 用 块 作为 参数 的 方 
法 有 两 点 不 同 : 





def each() 
1i=0 
while i < self.size 
yield self[i] 
i+=1 


end 
end 






































图 3-7 块 作为 参数 的 使 用 方法 2， 用 yield 来 处 理 
。 表面 上 没有 定义 块 参数 ; 
。 用 yield 代 奉 了 block.call 。 
使 用 yield 时， 块 的 信息 只 是 保存 在 内 部 堆栈 里 ， 并 没有 用 到 闭 包 ， 
所 以 这 种 方法 的 执行 速度 比 参 数 方法 稍微 快 一 些 。 另 外 ， 没 有 传递 块 时 
的 错误 提示 信息 也 不 一 样 〈 参 见 图 3-8)“ 。 


7 使 用 块 参 数 时 的 错误 提示 信息 不 是 很 好 理解 。 作 为 编程 语言 的 设计 者 ， 我 想 改进 但 是 还 没有 
好 的 想法 ， 现 公开 征集 改进 方法 。 


。 块 参数 版 

e。 yield 版 
图 3-8” 找 不 到 块 时 的 错误 提示 信息 不 同 
ee A 






























































。 明确 表示 了 块 处 理 ; 
。 块 和 对 象 一 样 被 统一 处 理 ; 
。 检查 参数 是 否 为 nil 就 可 以 判断 出 是 否 传 递 了 块 参数 。 





另外 ，yield 具有 下 面 两 个 优点 : 
。 没有 用 到 闭 包 ， 执 行 速 度 稍 快 ; 
。 错误 提示 信息 比较 容易 理解 ; 


还 有 ， 在 yield 版 本 中 判断 是 否 传递 了 块 可 以 用 下 面 的 语句 。 


defined? yield 


3.1.5 ”最终 来 看 ， 块 到 底 是 什么 
Ruby 的 块 具有 以 下 3 个 特点 : 
。 代码 块 可 以 作为 参数 传递 给 方法 ; 


。 在 补 调 用 的 方法 中 可 以 执行 传递 过 来 的 代码 块 ， 执 行 后 程序 的 控制 
权 返 还 给 方法 ; 


。n 块 中 最 后 执行 的 算式 的 值 是 块 的 值 ， 这 个 值 可 以 返回 给 方法 。 


块 也 可 以 被 看 做 只 是 高 阶 函 数 的 一 种 特殊 形式 的 语法 。 虽 然 只 是 稍 作 改 
进 ， 但 Ruby 中 块 的 各 种 灵活 运用 的 方法 还 是 让 人 赞叹 不 已 。 


3.1.6” 块 在 循环 处 理 中 的 应 用 


最 典型 的 用 法 是 ， 在 逐个 处 理 集 合 对 象 的 元 对 的 方法 中 使 用 块 。 下 面 这 
一 行程 序 相 信 你 已 经 很 熟悉 了 。 


ary.each {|x| puts x} 


Ruby 中 几乎 所 有 的 容器 类 都 有 each 这 个 方法 。 使 用 这 个 方法 可 以 循环 
处 理 容器 类 中 的 所 有 元 素 。 


也 可 以 用 for 语句 来 实现 each 方法 。 





for x in ary 
puts x 
end 





这 个 例子 中 是 在 循环 内 部 调用 puts 方法 ， 和 ary .each... 的 动作 几 


乎 是 一 样 的 。 


本 来 ，Ruby 束 是 为 了 要 实现 循环 功能 才 导 入 了 块 的 。 所 以 ， 在 以 前 文 
档 中 把 具有 块 的 方法 称 为 迭代 器 (iterator) 。iterate 就 是 循环 、 迭 代 的 
意思 。 但 是 ， 如 今 块 的 应 用 范围 比 当初 所 能 想到 的 要 广泛 得 多 ， 和 循环 
的 处 理 中 也 大 量 地 用 到 了 块 。 所 以 现在 仍 把 块 称 为 欠 代 器 束 很 


3.1.7 内 部 迭代 器 和 外 部 迭代 器 


像 Ruby 块 这 样 ， 把 对 各 个 元 素 的 处 理 逻 辑 传 送 给 容器 类 的 方法 ， 然 后 
在 方法 中 对 容器 类 中 每 个 元 素 调用 指定 的 处 理 逻 辑 ， 这 种 达 代 方式 称 为 
内 部 迭代 器 方式 。 


与 之 相对 应 ，C++ 和 Java 中 所 谓 的 欠 代 器 ， 是 用 别 的 类 对 象 来 循环 处 理 

容 名 中 的 元 素 〈 参 见 图 3-9) ， 这 种 循环 处 理 的 方式 称 为 外 部 迭代 器 方 

人 人 把 顺序 取出 容器 中 元 素 的 对 象 称 为 碗 代 吕 ， 
称 为 游标 。 











for (Iterator i = ary_names.iterator(); i.hasNext();){ 
Object obj = i.next(); 


和 





图 3-9 ”Java 的 外 部 迭代 器 示例 


内 部 迭代 器 不 用 额外 生成 类 ， 使 用 和 实现 都 很 简单 。 但 是 ， 对 于 不 支持 
闭 包 的 编程 语言 ， 想 要 拥有 循环 外 部 的 信息 就 要 费 些 工夫 ， 像 在 C 语言 
中 使 用 循环 就 不 太 方便 。 所 以 ， 没 有 闭 包 功能 的 C++ 和 Java 就 采用 了 

外 部 迭代 器 方式 。 





另外 ， 在 外 部 迭代 器 方式 中 容器 和 迭代 器 关系 密切 ， 实 现时 比较 困难 ， 
使 用 时 的 编程 量 也 比较 大 ， 而 内 部 迭代 器 只 用 一 行程 序 就 可 以 实现 循环 
了 。 但 是 外 部 迭代 融 也 有 它 自 身 的 优点 。 在 从 多 个 容 右 中 逐个 取出 数据 
ns 
现 小 


由 此 可 以 看 出 ， 外 部 迭代 器 和 内 部 迭代 器 各 有 所 长 。 但 是 ， 如 采编 程 语 
言 支 持 闭 包 功 能 的 话 ， 还 是 用 内 部 迭代 器 比较 方便 ?8 。 


8 从 设计 模式 来 看 ， 内 部 迁 代 器 是 访问 者 模式 ， 外 部 迭代 器 是 迭代 器 模式 。 
3.1.8 在 排序 和 比较 大 小 中 的 应 用 


程序 块 可 以 像 C 语言 的 qsort 那样 ， 作 为 每 个 元 素 的 判定 条 件 来 使 
用 。 例 如 在 Ruby 中 ， 可 以 采用 如 下 的 方式 在 排序 方法 中 使 用 块 。 


ary.sort{|a,b| a<=>b} 


如 果 和 C 语言 中 qsort 的 用 法 相 比 较 的 话 ， 我 们 就 可 以 看 到 Ruby 中 块 
的 用 法 是 多 么 简单 。 最 初 ， 如 果 在 sort 方法 中 没有 指定 块 ， 那 么 元 素 
的 比较 默认 也 是 用 <=> 算 式 的 ， 所 以 这 里 的 指定 和 默认 动作 是 一 样 的 ， 

没有 太 大 意义 。 


现在 我 们 把 各 个 元 素 变 换 成 整数 来 排序 。 


ary.sort{|a,b| 


a.to i <=> b.to i 


} 





这 也 很 简单 。 在 没有 指定 块 的 时 候 ， 是 按照 字典 顺序 来 比较 的 。 现 在 像 
这 样 指定 了 块 ， 那 么 就 按照 数值 顺序 来 进行 比较 。 按 字典 顺序 比较 时 ， 
10 是 排 在 1 和 2 之 间 的 ， 按 数值 顺序 比较 时 则 排 在 9 的 后 面 。 


仔细 想 想 ， 如 果 每 次 比较 部 要 做 整数 变换 处 理 的 话 ， 是 很 浪费 资源 的 。 
排序 时 要 多 次 进行 比较 处 理 ， 比 较 的 次 数 随 着 元 素 个 数 的 增加 而 增加 。 


现在 的 Ruby 排序 中 ， 元 素 有 4 个 的 时 候 需 要 比较 3 次 ，100 个 元 素 需 
要 比较 500 次 ，1000 个 元 素 则 需要 比较 9500 次 。 所 以 当 元 素 特别 多 的 
时 候 ， 执 行 块 的 代码 来 进行 比较 处 理 的 代价 就 不 能 忽视 了 。 


针对 这 种 情况 ， 可 以 用 sort_by 方法 。sort_by 用 执行 块 的 代码 所 生 
成 的 结果 来 排序 ， 对 每 个 元 素 只 执行 一 次 块 的 调用 。 


ary.sort by{|x| x.to i} 


3.1.9 ”用 块 保证 程序 的 后 处 理 


Ruby 和 别 的 编程 语言 一 样 ， 有 异常 处 理 功 能 ， 在 发 生 错误 时 处 理 可 能 
会 中 断 。 比 如 ， 下 面 的 文件 处 理 程序 。 











f = open(path) 


...#(a) 
f.close 





如 果 (a) 的 部 分 发 生 了 异常 ， 但 文件 可 能 没有 被 关闭 。 在 这 种 情况 下 ， 就 
需要 用 Java 中 与 finally 同样 功能 的 ensure 来 保证 文件 被 关闭 。 


f = open(path) 
begin 


ensure 


f.close 
end 














这 样 束 变 得 很 安全 了 ， 但 是 如 末 每 次 都 这 样 写 的 话 就 会 很 烦琐 。 现 在 ， 
让 我 们 来 看 看 块 是 怎样 来 解决 这 个 问题 的 吧 。 


在 Ruby 中 ，open 可 以 用 如 下 的 写法 来 表示 。 


open(path) {|f| 





| 
如 果 给 open 方法 传递 了 块 ， 那 么 在 结束 时 文件 束 可 以 上 自动 关闭 。 
3.1.10 ”用 块 实现 新 的 控制 结构 

如 果 用 块 的 话 ， 不 需要 改变 文法 ， 就 可 以 实现 控制 结构 的 定义 。 比 如 在 


无 限 循环 的 loop 或 者 指定 次 数 的 循环 times 中 ， 用 块 来 实现 控制 结构 
(参见 图 3-10) 。 


loop 
# 直 到 中 断 (break) 为 止 ， 
# 人 否则 块 无 限 循环 





} 

3.times { 
#3 次 循环 

} 








图 3-10 times 方法 的 示例 ， 用 块 实现 控制 结构 


块 还 可 以 用 于 指定 条 件 。 比 如 容器 类 的 reject 方法 把 块 处 理 中 结果 为 
真 的 数据 删除 掉 ， 返 回 剩余 元 系 的 数据 《参见 图 3-11) 。 
ary = [1,2,3,4] 


# 删 除 偶 数 
ary.reject {|x| x%2 == 6} 























# => [1,3] 








图 3-11 reject 方法 的 示例 ， 用 块 来 指定 条 件 


在 图 3-12 中 ， 用 循环 来 实现 同样 的 功能 。reject 只 需要 一 行程 序 ， 循 
环 却 需 要 6 行程 序 。 此 外 ，reject 程序 不 仅 很 短 ， 而 且 意 图 很 明确 。 
result = [] 


for x in ary 
if x%2 != 6 























result.push x 
end 
end 








图 3-12 用 循环 来 重 写 图 3-11 中 的 程序 


像 这 样 的 方法 Ruby 中 还 有 好 几 个 ， 其 方法 名 大 都 以 -ect 结尾 。 表 3-1 
列 出 了 从 Smalltalk 继承 的 方法 名 。 


表 3-1 和 reject 类 似 的 方法 


collect 集成 块 的 结果 
集成 块 结果 为 真 的 元 素 


返回 块 结果 为 真 的 最 初 元 素 
3.1.11 在 回调 中 使 用 块 
块 也 可 以 在 回调 中 使 用 。 图 3-13 是 利用 Tk 3? 的 GUI 程序 。 


9Tk 是 UNIX 中 的 GUI 工具 包 。 


























图 3-13 的 程序 执行 时 会 显示 hello 按钮 。 按 下 的 话 ， 会 在 标准 输出 中 
显示 hello 字符 串 。 


require 'tk' 
# 按 钮 生成 


b = TkButton.new(:text => "hello").pack 
# 按 下 的 动作 


b.command{ puts "hello" } 
# 消 息 循 环 开始 


Tk.mainloop 























图 3-13 回调 中 使 用 块 ， 利 用 了 Tk 








3.1.12 块 处 理 的 特别 理由 

如 上 所 述 ，Ruby 的 块 具有 以 下 特点 : 

。 在 普通 参数 以 外 ， 男 外 被 传送 ; 

。 块 不 是 对 象 (lambda 方法 可 以 作 闭 包 对 象 化 〉。 

其 他 具有 闭 包 功能 的 编程 语言 ， 比 如 Lisp 和 Smalltalk， 它 们 没有 这 样 
的 区 别 ， 总 是 把 闭 包 作为 对 象 来 处 理 。 从 这 一 点 来 看 ，Ruby 是 作 了 改 
进 。 这 到 底 是 为 什么 呢 ? 

这 有 两 个 理由 。 一 个 是 减少 对 象 的 生成 数 。 初 期 Ruby 生成 闭 包 对 象 的 
代价 很 高 ， 所 以 尽量 避免 了 闭 包 对 象 的 生成 。 即 使 是 真正 必要 的 对 象 ， 
也 尽量 延迟 到 必要 的 时 候 才 生成 ， 我 通过 这 种 方式 努力 提高 程序 性 能 ， 
哪怕 是 只 能 带 来 一 点 点 的 改善 。 


为 一 个 是 外 观 上 的 理由 。 如 果 把 块 做 成 和 Lisp 或 者 Smalltalk 闭 包 一 样 
的 话 ， 那 么 each 的 外 观 就 会 像 下 面 一 样 。 


ary.each ({|x|puts x}) 


这 样 看 上 去 就 不 像 是 一 个 控制 结构 。Ruby 之 所 以 不 用 扩张 文法 就 可 以 
很 目 然 地 退 加 控制 结构 ， 是 因为 在 调用 方法 时 ， 对 块 有 着 特别 的 处 理 。 


在 Ruby 块 的 设计 中 ， 考 虑 到 了 和 其 他 语句 的 协调 。 我 们 用 别 的 具有 块 


或 者 高 阶 函 数 的 编程 语言 来 比较 一 下 。 比 如 在 Smalltalk 语言 中 ， 所 有 
的 控制 结构 都 用 块 来 表示 。if 语句 的 写法 如 下 所 示 。 


(age < 18) ifTrue: [ adult := true ]. 


Smalltalk 中 方 括号 里 面 的 部 分 是 块 。 这 一 行程 序 是 用 ifTrue 来 判断 其 














真 假 的 ， 只 有 当 条 件 为 真 的 时 候 ， 后 面 的 块 才 会 被 执行 。 
另外 ，while 语句 的 写法 如 下 所 示 。 


[i < 16] whileTrue: [i := i+1 |]. 


这 个 例子 里 ， 前 面 的 条 件 也 是 一 个 块 。 这 行程 序 是 在 调用 第 一 个 块 [i < 
16] 的 whileTrue: 方法 。 


后 面 的 块 [i := i + 1] 是 这 个 方法 的 参数 。whileTrue: 方法 会 在 第 
一 个 块 为 真 时 反复 执行 第 二 个 块 。 

和 if 不同 ， 因 为 while 语句 的 条 件 判 断 也 要 反复 执行 ， 所 以 这 一 个 部 
分 就 不 能 是 单纯 的 表达 式 ， 而 需要 把 它 写 成 块 。 不 客气 地 说 ，Smalltalk 
把 循环 处 理 也 都 作为 方法 调用 ， 为 了 简化 语法 而 区 别 使 用 一 般 的 条 件 判 
断 表 达 式 和 块 ， 结 果 是 使 用 时 不 是 很 方便 。 


我 们 再 来 看 看 在 循环 中 多 用 高 阶 函 数 的 Lisp 编程 语言 。Ruby 的 each 
在 Lisp 中 是 像 下 面 这 样 的 。 


(foreach ary (lambda (x) (puts x))) 


如 果 用 Ruby 来 写 的话 ， 是 像 下 面 这 样 的 。 


ary.each{|x| puts x} 


先 不 用 说 Lisp 中 需要 很 多 括 写 这 个 特征 ， 为 了 做 成 团 包 ，1lambda 也 是 
必 不 可 少 的 ， 这 束 让 人 觉得 它 只 是 一 个 高 阶 函数 ， 而 不 是 一 个 控制 结 
构 。 


Lisp 中 如 采用 宏 来 退 加 控制 结构 的 话 ， 程 序 是 像 下 面 这 样 的 。 


(foreach x (puts x)) 














| | 


因为 用 宏 置 换 反 了 程序 ， 所 以 就 看 不 出 来 内 部 有 没有 使 用 高 阶 函 数 。 
Lisp 中 局 阶 函数 就 是 高 阶 函 数 ， 控 制 结构 扩张 时 残 用 宏 ， 分 工 是 不 一 样 
的 。 所 以 ， 同 样 是 用 闭 包 的 语言 ， 从 语法 的 不 同 到 整个 编程 语言 风格 的 
不 同 ， 都 是 很 有 趣 的 。 

















虽然 有 点 “ 王 效 卖 瓜 ， 目 卖 目 伟 ? 的 意思 ， 但 Ruby 这 种 不 用 改变 语法 就 
可 以 追加 新 控制 结构 的 功能 很 是 漂亮 。 当 然 ， 调 用 方法 时 只 能 使 用 一 个 
块 ， 是 Ruby 中 的 一 个 限制 ， 但 实际 情况 中 也 几乎 没有 必要 使 用 多 个 
块 。 








3.2 ”用 块 作 循 环 


Ruby 的 块 本 来 融 是 在 循环 的 抽象 化 过 程 中 诞生 的 。 现 在 除了 循环 以 
外 ， 在 其 他 一 些 场合 也 得 到 广泛 应 用 ， 但 这 并 没有 改变 其 实现 循环 的 初 
囊 。 这 里 我 们 再 次 说 明 一 下 如 何 用 块 来 实现 循环 。 


3.2.1 块 是 处 理 的 集合 


循环 是 程序 的 基本 元 素 。 从 结构 化 编程 的 原理 上 说 ， 所 有 的 算法 都 是 由 
顺序 、 分 支 和 循环 的 组 合 来 实现 的 。 可 以 说 处 理 好 了 循环 ， 也 就 处 理 好 
了 程序 。 

Ruby 和 其 他 编程 语言 一 样 ， 条 件 成 立时 的 循环 也 用 while 来 表现 。 在 
这 之 外 ， 循 环 还 有 其 他 更 为 深奥 的 表现 形式 。 

首先 ，Ruby 中 有 until 语句 。until 语句 是 直到 条 件 成 立时 为 止 一 直 
循环 ， 和 while 语句 正好 相反 。 如 果 只 是 until 语句 的 话 ， 并 不 足 为 
奇 ， 重 要 的 是 Ruby 还 可 以 处 理 块 ， 这 是 它 独 有 的 特点 。 


块 是 处 理 的 集合 。Ruby 中 ， 在 方法 调用 的 最 后 ， 可 以 附加 上 块 ， 比 如 
下 面 的 例子 。 


ary = [1,2,3] 
ary.each{|i| puts i} 


第 2 行 大 括号 中 的 部 分 是 块 。 这 行程 序 是 用 块 作 为 参数 来 调用 数组 的 
each 方法 。 


each 方法 可 以 对 数组 的 各 个 元 素 进行 循环 处 理 。 夹 在 “中 间 的 变量 i 
可 分 别 赋值 为 "1、2、3? 中 的 各 个 元 象 来 进行 块 的 处 理 。 


块 中 的 puts 是 把 对 象 加 上 换行 输出 到 标准 输出 设备 的 函数 。 在 这 里 ， 
执行 代码 后 ， 会 一 行 一 行 地 输出 1、2、3。 


这 里 重要 的 是 ，each 方法 中 根本 不 包含 “怎样 循环 ”的 信息 。 也 就 是 














说 ，each 方法 与 数组 内 部 的 详细 实现 完全 无 天 。 


所 以 说 ， 无 论 数 组 内 部 结构 是 否 变 化 ， 或 者 是 换 成 数组 以 外 的 数据 结 
构 ， 对 each 方法 的 处 理 都 没有 影响 。 因 为 each 方法 表达 的 是 “对 各 个 
元 素 进 行 循环 处 理 * 这 一 本 质 部 分 ， 所 以 上 述 变 化 对 它 没 有 影响 。 


像 这 样 ， 我 们 把 和 数据 内 部 详细 实现 无 关 而 只 是 对 各 个 元 素 进行 循环 处 
理 的 方法 称 为 循环 的 抽象 化 。Ruby 的 简洁 性 ， 不 只 是 体现 在 程序 简 
短 ， 更 重要 的 是 体现 在 对 本 质问 题 的 处 理 ， 使 得 程序 更 为 灵活 。 


用 Ruby 实现 这 种 循环 ， 实 际 上 非常 简单 。 只 是 在 块 调用 的 地 方 ， 像 下 
面 的 程序 一 样 用 yield 来 指定 而 已 。yield 的 意思 是 转让 。 




















def ary_each(ary) 
i =6 
while i < ary.size 
yield arylil] 


end 
end 





也 可 以 用 do~end 来 定义 块 。 大 括号 和 do~end 基本 上 是 一 样 的 。 但 
是 ， 在 块 是 多 行 的 时 候 ， 用 do~end 看 起 来 和 别 的 结构 的 统一 性 更 好 一 
点 。 刚 开发 Ruby 的 时 候 ， 块 的 定义 只 有 大 括号 ， 因 为 右边 的 大 括号 和 
end 混在 一 起 的 时 候 看 起 来 很 别扭 ， 所 以 增加 了 do~end 语句 。 它 们 两 
个 使 用 方法 的 区 别 如 下 : 


。 其 是 一 行 的 时 候 用 大 括号 ， 是 多 行 的 时 候 用 do~end ; 


。 块 作 为 表达 式 的 一 部 分 ， 给 方法 返回 值 时 用 大 括号 ， 块 作为 处 理 语 
句 或 程序 流程 控制 的 时 候 用 do~end 。 


另外 ， 大 括号 和 do 的 结合 优先 级 不 一 样 。 大 括号 的 优先 级 更 局。 在 省 
略 参 数 的 括号 时 ， 这 种 区 别 就 会 显现 出 来 了 。 比 如 下 面 的 程序 ， 


a b {|x| puts x} 











因为 大 括 写 的 优先 级 蜗 ， 所 以 就 认为 块 是 和 b 结合 在 一 起 的 。 加 上 括号 
之 后 的 程序 如 下 所 示 。 


a(b {|x| puts x}) 


0 
0 的 。 


a b do|x| puts x end 


那么 ， 加 上 括号 之 后 的 程序 如 下 所 示 。 


a(b) do|x| puts x end 


因此 ， 在 省 略 括 号 调用 方法 时 ， 一 定 要 注意 块 的 结合 优先 顺序 。 
3.2.2 ” 块 应 用 范围 的 扩展 


现在 ， 块 被 广泛 应 用 于 各 种 各 样 的 领域 中 ， 但 最 早起 源 于 在 循环 中 的 应 
用 。 其 实 ， 我 在 最 早 介绍 Ruby 的 《面向 对 象 的 脚本 语言 Ruby》 (1999 
年 ) 一 书 中 ， 把 调用 块 的 方法 称 为 达 代 避 。 达 代 器 就 是 循环 的 意思 。 所 
以 当时 块 主要 是 用 在 循环 里 的 。 


Ruby 块 起 源 于 20 世纪 70 年 代 麻 省 理工 学 院 〈MIT) 开发 的 CLU 编程 
语言 。CLU 中 有 大 代 器 功能 ， 用 于 循环 的 抽象 化 (参见 图 3-14) 。 


for i:int in int$from to(l,string$size(s)) do 


Sa 调用 法 代 器 的 部 分 
图 3-14 ”CLU 中 的 迭代 器 


图 3-14 中 的 int$ 是 调用 整数 功能 的 意思 。 在 这 个 迭代 器 中 ， 从 1 开始 
到 string$size(s) 为 止 ， 循 环 做 do 和 end 之 间 的 处 理 。 








CLU 的 返 代 器 是 在 for 语句 中 才能 调用 的 特殊 例 程 。 该 例 程 用 yield 
语句 传递 循环 变量 ， 图 3-14 中 的 i ， 用 于 实现 循环 处 理 。 循 环 结束 
后 ， 程 序 继续 执行 yield 之 后 的 语句 。 


从 根本 上 来 看 ， 这 和 Ruby 的 块 是 相似 的 。 但 古 因为 在 CLU 中 只 能 用 
for 语句 来 调用 迭代 器 ， 所 以 它 的 用 法 就 受到 了 限制 。 


在 Ruby 中 ， 不 必用 特别 的 结构 ， 在 任意 的 方法 中 都 可 以 使 用 块 ， 所 以 
不 仅仅 是 在 循环 中 ， 块 在 各 种 各 样 的 领域 中 都 得 到 了 应 用 。 从 文法 上 的 
和 
门 深思 吧 。 


3.2.3 ”高 阶 函 数 和 块 的 本 质 一 样 


人 
函数。 


编程 语言 要 实现 高 阶 函 数 ， 就 必须 把 函数 或 者 方法 作为 数据 来 处 理 。 反 
之 ， 具 有 这 样 功能 的 编程 语言 驶 可 以 利用 高 阶 函 数 。 


例如 ，C 语言 可 以 把 函数 作为 指针 来 处 理 ， 所 以 可 以 实现 高 阶 函 数 。 在 
前 面 所 举 的 each 方法 的 例子 中 ， 我 们 可 以 把 块 看 成 是 具有 “puts 参 
数 ” 功 能 的 匿名 函数 ， 把 这 个 匿名 函数 作为 参数 传递 给 each 方法 ， 然 后 
在 each 方法 中 调用 这 个 匿 名 函数 ， 这 束 跟 局 阶 冰 数 是 一 样 的 了 。 


如 果 把 Ruby 的 块 看 成 是 高 阶 函 数 来 调用 的 话 ， 那 么 在 语法 上 就 有 限 
人 
语言 的 控制 结构 。 


说 一 下 题 外 话 ， 这 里 有 一 个 有 趣 的 调查 结果 。 在 倾向 于 使 用 高 阶 函 数 的 
OCaml 编程 语言 的 2239 个 库 函 数 中 ， 没 有 用 函数 参数 的 占 87.2%， 用 
一 个 函数 参数 的 占 12.1%， 用 两 个 以 上 函数 参数 的 只 占 0.7%。 


所 以 ， 在 蜗 阶 沙 数 中 ，94% 部 只 有 一 个 函数 参数 ， 有 两 个 以 上 函数 参数 
的 是 极 少 数 的 。Ruby 以 更 易于 使 用 的 形式 ， 把 只 有 一 个 函数 参数 的 情 

人 
是 太 好 了 。 




















3.2.4 用 Enumerable 来 利用 块 
虽然 块 的 应 用 范围 不 局 限于 循环 ， 但 我 们 还 是 重点 从 循环 讲 起 吧 。 


把 块 应 用 于 循环 抽象 化 的 ， 最 典型 的 应 该 是 Enumerable 这 个 模 

块 。Enumerable 模块 以 each 方法 为 基础 ， 为 定义 each 方法 的 类 提供 
了 多 种 功能 。 如 果 继 承 (Mix-in ) 了 这 个 模块 ， 就 可 以 很 方便 地 利用 
它 的 各 种 功能 。 表 3-2 中 列 出 了 Enumerable 提供 的 方法 。 


表 3-2” ”Enumerable 的 方法 


是 否 有 元 素 为 真 
块 是否 对 有 的 元 素 为 真 
为 真 


结果 为 真 的 第 1 个 元 素 

























































































EE 复 ) (Ruby 1.8.7) 




















分 割 成 n 个 元 素 后 处 理 (Ruby 1.8.7) 


元 素 的 数组 
块 为 真 











的 第 1 个 元 素 


和 x 相等 的 元 素 是 否 存 在 
元 素 的 块 处 理 结果 
元 素 的 块 处 理 结果 









































































































































j 块 比较 出 的 最 小 的 元 素 
j 块 变换 后 的 最 小 的 元 素 (Ruby 1.8.7) 
假 元 素 分 离 




































































里 结果 为 真 的 元 素 集 
排序 












































纪 直 来 
5 块 处 理 








EE 
er | 全 


Enumerable 的 意思 是 可 数 的 。 它 是 对 数组 等 各 种 集合 的 元 素 做 循环 处 
理 的 方法 的 集成 。 这 些 方 法 大 致 可 以 分 为 以 下 几 类 : 


。 循环 

。 指定 条 件 

。 排序 、 比 较 大 小 
我 们 来 看 看 Enumerable 的 功能 和 这 些 功能 的 使 用 方法 吧 。 
循环 


循环 处 理 的 基本 方法 是 each 。 在 下 面 的 程序 中 ， 假 定 col 是 个 集合 对 
象 ， 首 先 把 各 个 元 素 值 赋值 给 变量 x ， 然 后 执行 puts x。 


col.each {|x| puts x} 


必须 要 注意 的 是 ，each 并 没有 在 Enumerable 中 定义 。 反 过 
来 ，Enumerable 中 的 所 有 方法 都 是 在 内 部 调用 each 来 实现 的 。 


只 要 是 可 以 用 each 方法 对 各 个 元 素 进 行 循环 处 理 的 对 象 ， 用 include 
包含 了 Enumerable 就 可 以 使 用 表 3-2 中 所 表示 的 各 种 方法 了 。 


ET 
) 








循环 方法 中 最 简单 的 是 each_with_index 方法 。 它 把 元 素 和 下 标 一 起 
传递 给 循环 处 理 方法 。 


["a","b","c"].each with index{ |x,i| 
printf "%d: %s\n", i, x 


} 











最 常用 的 方法 之 一 是 collect 。collect 是 对 各 个 元 素 执 行 块 处 理 ， 
返回 处 理 结果 的 数组 。 块 的 执行 结果 就 是 块 中 最 后 一 个 表达 式 的 值 。 比 
如 下 面 的 程序 : 


[1,2,3].collect{ |x| 














在 Ruby 的 Enumerable 中 ， 像 collect 、select 和 detect 等 方法 
一 样 名 字 以 -ect 来 结尾 的 方法 有 很 多 。 这 些 方法 名 是 继承 自 Smalltalk 
的 方法 名 。collect 的 别名 map 也 是 继承 自 Lisp 编程 语言 中 的 方法 
名 。 


zip 是 把 多 个 集合 中 的 元 素 同 时 取出 来 的 方法 。 有 具体 请 看 下 面 的 例子 。 





a = [1,2,3] 
b = [2,4,6] 
a.zip(b) 
# 疆 
# 





结果 


Fr, 2 2 a [6 





不 用 块 来 调用 zip 时 ， 它 返回 一 个 数组 ， 数 组 中 第 n 个 元 素 是 由 每 个 集 


合 的 第 n 个 元 系 所 构成 的 数组 。 男 外 ， 如 果 用 块 来 调用 zip 的 话 ， 它 
束 把 每 个 集合 的 第 n 个 元 素 一 起 传递 给 循环 处 理 。 


.zip(b) {|x,y| 
printf "[%s,%s|]\n",x,y 








grep 方法 可 以 对 集合 中 的 元 素 进行 模式 匹配 。 匹 配 用 === 运 算 符 来 表 

示 。 没 有 指定 块 的 时 候 ， 返 回 集合 中 匹配 元 素 (=== 运 算 符 返回 真 ) 的 
数组 。 如 果 指 定 了 块 ， 和 zip 一 样 ， 束 把 各 个 匹配 的 元 素 传 递 给 块 来 处 
0 


a = ["foo","bar","baz"] 








a.grep(/^b/) 
# 结 果 是 以 b 开头 的 元 素 
#["bar","baz"] 





a.grep(/^b/) {|x| 


printf "%s\n",x 








条 件 指定 


对 集合 的 各 个 元 系 进 行 块 处 理 的 是 循环 型 的 方法 。 和 它 相 对 的 ， 对 各 个 
元 素 进 行 块 处 理 ， 把 块 处 理 的 结果 作为 下 个 动作 的 判定 条 件 的 方法 是 条 
件 指 定型 方法 。 


条 件 指定 型 方法 中 最 常用 的 是 select 方法 。select 方法 把 块 处 理 结 
果 为 真 的 元 素 存 放 在 数组 中 返回 。 这 个 方法 的 别名 是 find_all 。 














a = [1,2,3,4] 
a.select{|x| x%2 == 6} 
# 结果 (偶数) 
# 





2,4] 





和 select 相反 的 方法 是 reject 。reject 方法 返回 块 处 理 结果 为 假 的 
元 素 的 数组 。 


a = [1,2,3,4] 
a.reject{|x| x%2 == 6} 
# 结果 (奇数 ) 

# [1,3] 








如 果 想 找 出 第 一 个 满足 条 件 的 元 素 ， 就 可 以 用 detect 方法 。 它 的 别名 
是 find 。 
1,2,3,4] 


[ 
etect{|x| x%2 == 6} 
吉 果 《第 1 个 偶数 ) 























真 假 结果 都 需要 的 情况 也 不 能 说 没有 。 这 样 一 个 八 面 玲珑 的 方法 是 
partition 。partition 方法 返回 真 的 和 假 的 元 素 的 数组 。 











全 部 元 又 是 否 都 为 真 ， 或 者 至 少 有 一 个 元 系 为 真 的 判断 方法 是 al1? 和 


any? 。 


[true, truel] 
[false, truel] 
.all? # => true 


b.all? # => false 
a.any? # => true 
b.any? # => true 





all? 和 any? 可 以 用 块 处 理 的 结果 作为 判定 条 件 。 


c = [1,2,3] 
c.all?{|x| x%2 == 6} # => false 
c.any?{|x| x%2 == 6} # => true 





排序 与 比较 大 小 
有 一 些 方法 是 用 对 块 操 作 的 结果 来 比较 大 小 。 


其 中 min 和 max 返回 集合 中 最 小 和 最 大 的 元 系 ， 如 采 指 定 有 块 的 话 ， 
就 用 块 来 比较 两 个 元 素 的 大 小 。 比 较 用 <=> 运算 符 ，a >b 的 时 候 返 回 
正 数 ，qa =b 时 返回 和 零 ，a <b 时 返回 负数 。 


Be TM 

p ary.max 

# => "6" 

p ary.max{|a,b| a.to i <=> b.to i} 
# => "11" 











sort 方法 是 把 集合 的 元 素 按 照 从 小 到 大 的 顺序 排序 ， 和 min 一 样 可 以 
传递 给 用 于 比较 大 小 的 块 。 

Ee Rh Re 
ary.sort{|a,b| a.to i <=> b.to i} 
# 结果 
# 





[Ls 2 ed "] 








但 是 ， 块 处 理 的 调用 是 要 花费 时 间 的 ， 而 且 在 排序 的 时 候 ， 与 其 说 是 比 
较 两 个 元 素 ， 更 多 的 时 候 是 对 每 个 元 际 进 行 茶 种 处 理 〈 取 得 茶 个 属性 











等 ) ， 用 处 理 的 结果 来 排序 。 另 外 ， 不 要 每 次 在 比较 的 时 候 都 调用 块 处 
理 ， 先 一 次 性 把 全 部 的 元 素 都 处 理 好 ， 然 后 用 处 理 结果 来 排序 常常 会 更 
快 。Ruby 的 sort_by 方法 就 是 用 这 种 方式 来 排序 的 。 

ary = ["1","11","2","6"] 

ary.sort by{|x| x.to i} 

# 结果 











# [6 | 





从 最 新 版 本 的 Ruby 1.8.7 (也 包括 1.9) 开始 ，Ruby 也 提供 了 跟 min 和 
max 方法 一 样 用 块 来 指定 比较 方法 的 min_by 和 max_by 方法 。 





3.2.5 “Enumerable 的 局 限 


像 上 面 介绍 的 那样 ，Enumerable 提供 了 以 循环 为 基础 的 方法 ， 但 是 
Enumerable 也 有 它 的 缺点 ， 主 要 的 两 个 缺点 是 : 循环 都 依赖 each 方 
法 ， 而 且 不 能 并 行 执行 。Enumerable 可 以 用 each 方法 简单 地 实现 循 
环 ， 但 是 反 过 来 说 ， 这 也 是 它 的 一 个 局 限 。 


比如 字符 串 。 对 字符 串 实行 循环 时 ， 可 以 想到 的 组 合 单位 有 文字 、 行 或 
字 节 。 根 据 不 同情 况 需 要 的 单位 可 能 不 一 样 ， 所 以 不 能 说 哪 种 单位 是 正 
确 的 。String 类 是 字符 串 ， 所 以 可 能 很 多 人 会 觉得 它 的 单位 是 文字 。 
但 是 ， 在 Ruby 1.8 中 ， 它 是 以 行为 单位 来 循环 的 。 在 Ruby 1.9 中 ， 为 
了 强调 “没有 最 好 的 方案 ”， 我 们 果断 决定 String 类 不 再 继承 
Enumerable 模块 。 对 于 循环 时 要 用 什么 单位 ， 可 以 分 别 用 each_char 
、each_line 或 each_byte 等 这 些 不 同 的 方法 来 定义 。 


顺便 再 说 明 一 下 ， 在 Ruby 1.8 中 ， 和 大 多 人 想象 的 不 同 ， 字 符 串 的 
each 方法 是 以 行为 单位 来 循环 的 。 


以 文字 为 单位 来 循环 时 用 each_char 方法 (从 1.8.7 版 开始 提供 ) ， 以 
字 节 为 单位 来 循环 时 用 each_byte 方法 。 但 是 ，Enumerable 模块 提供 
的 方法 就 不 能 用 这 些 单位 来 处 理 了 。 这 就 是 Enumerable 只 依存 于 
each 方法 的 局 限 性 。 


循环 不 能 并 行 处 理 这 一 点 是 Ruby 块 所 共有 的 局 限 性 。Ruby 的 方法 接受 
块 参数 ， 在 方法 内 部 进行 初始 化 、 条 件 判 断 等 循环 处 理 ， 再 回 过 头 调用 














块 的 处 理 ， 这 种 循环 处 理 被 称 为 内 部 迭代 右 。 这 种 方法 定义 简单 且 容易 

理解 ， 但 是 如 果 从 多 个 对 象 逐 个 取出 元 和 聚 来 处 理 的 话 ， 就 没有 别 的 办 

只 有 把 这 所 有 对 象 的 元 系 变 成 一 个 数组 时 ， 才 能 从 第 1 个 开始 逐个 
地 


相反 ， 在 Java 或 者 C++ 中 ， 对 于 同 量 (vector〉 等 循环 处 理 对 象 ， 是 先 
从 中 取出 指定 循环 位 置 的 对 象 “ 游 标 ”， 然 后 通过 这 个 对 象 对 各 个 元 素 进 
行 循 环 。 这 种 通过 外 部 对 象 进行 循环 的 机 制 称 为 外 部 迭代 器 。 外 部 迭代 
器 对 原始 对 象 的 依赖 性 很 强 ， 所 以 其 机 制 很 复杂 ， 定 义 很 困难 。 


男 外 ， 调 用 方 每 次 都 要 作 游 标的 初始 化 和 条 件 判断 (是否 还 有 下 一 个 元 
素 ) ， 然 后 取出 下 个 元 素 ， 所 以 使 用 方法 变 得 很 复杂 。 但 是 这 样 做 的 好 
处 是 ， 同 时 从 多 个 对 象 取出 元 系 进行 处 理 的 程序 很 好 写 ， 而 这 正 是 内 部 
迭代 器 难于 处 理 的 情形 。 


我 在 最 初 设计 Ruby 时 就 已 经 知道 有 这 些 问 题 ， 但 是 因为 它们 并 不 频繁 
发 生 ， 所 以 不 是 很 重视 。Ruby 1.8.7 版 以 后 提供 了 Enumerator 类 ， 同 
时 解决 了 以 上 两 个 问题 。 表 3-3 中 是 Enumerator 类 (正确 地 说 应 该 是 
Enumerable: :Enumerator 类 ) 的 方法 一 览 。 














表 3-3” Enumerator: :Enumerator 的 方法 





ED 和 


指定 的 方法 把 元 素 送 给 块 去 处 理 


调用 块 时 附加 上 下 标 




















返回 下 一 个 元 素 〈 没 有 时 则 发 生 异 常 ) 
next 的 顺序 重新 从 第 1 个 开始 


在 Ruby 1.8.7 版 以 后 ， 如 果 不 传 递 块 的 话 ，Enumerable 模块 几乎 所 有 
的 方法 都 返回 Enumerator 。 然 后 Enumerator 对 象 提供 基于 该 方法 的 
循环 ， 而 不 用 each 。 所 以 ， 在 对 字符 串 以 字 节 为 单位 循环 ， 求 最 大 字 
节 值 时 ， 可 以 用 下 面 的 程序 。 


str.each_ byte.max 


方法 中 即使 没有 返回 Enumerator 的 功能 ， 也 可 以 使 用 enum_for 方法 








得 到 Enumerator 对 象 。 例 如 ， 想 取得 基于 each_byte 的 Enumerator 
， 可 以 用 下 面 的 程序 。 


str.enum_for(:each_byte) 


调用 块 处 理 时 ， 如 果 有 第 几 个 元 素 是 否 存 在 这 样 的 索引 信息 的 话 ， 就 会 
很 方便 ， 比 如 在 数组 前 后 的 元 素 也 一 起 参与 计算 的 时 候 。 对 于 each ， 
以 前 提供 了 enum_with_index 方法 ， 但 是 ， 如 果 对 each 以 外 的 方 
法 ， 比 如 map ， 也 都 要 分 别提 供 这 样 的 方法 的 话 ， 束 会 没有 穷尽 的 ， 所 
以 就 没有 为 这 些 方法 提供 相应 的 市 索引 的 方法 。 但 今后 ， 像 下 面 这 样 : 











ary.map.with index{ |x,i| 


[x,i] 





把 块 处 理 省 略 掉 ， 用 .with_index 这 样 的 方法 ， 就 可 以 给 Enumerable 
的 所 有 循环 方法 传递 索引 了 。 


最 后 ， 至 于 同时 并 行 处 理 ， 其 实 Enumerator 也 可 以 作为 外 部 迭代 器 来 
使 用 。 首 先 取 得 Enumerator 对 象 ， 然 后 调用 .next 方法 就 可 以 按 顺 序 
逐个 取出 块 应 该 返回 的 要 素 。 提供 循环 的 一 方 只 需 像 平 稼 一 样 定 义 上 自己 
的 内 部 迭代 器 ，Enumerator 类 会 自动 把 它 转换 成 外 部 迭代 器 〈 内 部 处 
理 相 当 复 杂 ) 。 


比如 我 们 看 一 下 下 面 的 这 个 zip 方法 。Enumerable 提供 的 zip 方法 ， 
是 按 顺 序 取 出 各 个 参数 的 元 素 ， 然 后 把 这 些 元 素 作为 一 个 数组 传递 进 























如 果 用 Ruby 来 定义 zip 方法 的 话 ， 到 目前 为 止 ， 因 为 没有 提供 外 部 过 
代 器 ， 所 以 只 能 在 内 部 把 参数 变换 成 数组 来 对 应 《参见 图 3-15 的 上 半 
部 分 ) 。 把 参数 作成 数组 ， 有 以 下 两 个 问题 : 


1 把 参数 变 成 数组 的 版 本 
module Enumerable 
def zip(*args) 
n = 0 
args = args.map{|al a.to a} 
self.each do|x| 
yield [x, *args.map{|a|l a[n]}] 
n += 1 
end 
end 
end 

















2 使 用 外 部 迭代 器 的 版 本 


module Enumerable 
def zip(*args) 
args = args.map{|a| a.enum for(:each)} #(a) 
self.each do|x| 
yield [x, *args.map{|al 
a.next rescue nil #(b) 





图 3-15 ”Ruby 定义 的 zip 方法 
。 大 量 的 数据 变换 成 数组 会 造成 内 存 浪费 ; 
。 不 能 处 理 无 限 循环 的 Enumerable 。 


0 古 要 并 行 取出 各 参数 的 元 素 ， 所 以 受到 了 内 部 友 代 露 的 
| 约 。 


但 是 ， 在 Ruby 1.8.7 版 以 后 ， 由 于 提供 了 Enumerator 功能 ， 程 序 可 以 
写成 如 图 3-15 的 下 半 部 分 那样 。 


首先 ，1 的 部 分 不 要 变换 成 数组 ， 而 是 用 enum_for 方法 变换 成 以 each 
为 基础 的 Enumerator 。 如 果 是 Ruby 1.8.7， 这 部 分 可 以 通过 调用 没有 











块 的 each 方法 来 实现 ， 但 是 如 果 是 用 户 上 自己 定义 的 类 ， 调 用 没有 块 的 
each 方法 ， 有 可 能 并 不 返回 Enumerator 。 所 以 用 enum_for 方法 才 
是 安全 的 。 


2 的 部 分 是 从 Enumerator 里 面 把 元 素 一 个 个 取出 来 。Ruby 的 zip 方 
法 的 规格 是 ， 如 果 后 面 已 经 没有 元 素 了 ， 那 么 要 加 入 一 个 nil ， 所 以 这 
里 用 rescue 来 捕捉 没有 元 素 时 的 异常 (StopIteration 异常 ) ， 传 递 
nil 。 用 Enumerator 的 版 本 和 不 用 Enumerator 的 版 本 动作 上 没有 什 
么 区 别 ， 参 数 如 果 是 很 大 的 集合 ， 不 用 Enumerator 的 话 ， 就 要 把 参数 
变换 成 数组 ， 从 而 会 消耗 大 量 内 存 。 











3.3 ”精通 集合 的 使 用 

本 来 导入 块 功能 的 目的 就 是 对 集合 中 的 多 个 对 象 作 循环 处 理 。 块 功能 和 
集合 结合 起 来 就 能 发 挥 更 大 的 作用 。 所 以 在 这 里 ， 既 作为 一 个 复习 ， 又 
学 习 一 下 Ruby 集合 的 使 用 方法 。 

集合 可 以 看 做 是 多 个 对 象 的 容器 。Ruby 标准 库 里 面 提供 了 一 些 集合 
类 。 比 较 典 型 的 是 Array 和 Hash 类 。 这 里 我 们 以 这 两 个 类 为 中 心 来 讲 
解 。 


3.3.1 ”使 用 Ruby 的 数组 


Array 本 意 是 整整 齐 齐 排列 在 一 起 的 东西 ， 数 组 实际 上 也 很 像 这 个 样 
子 。 比 如 包括 整数 1、2、3 的 数组 可 以 表示 成 图 3-16 的 样子 。 


上 


图 3-16 数组 的 概念 























请 注意 这 些 整 数 并 不 在 格子 中 。 刚 才 说 过 了 ， 集 合 是 个 容器 ， 其 实数 组 
中 并 没有 放 入 对 象 ， 而 是 可 以 用 数组 去 引用 各 个 对 象 。 


生成 数组 的 方法 有 多 个 ， 基 简单 的 是 使 用 数组 表达 式 。 数 组 表达 式 是 用 


有 逗号 隅 开 排列 在 一 起 的 表达 式 ， 并 用 [0] 括 起 来 。 图 3-16 中 数组 的 定义 方 
法 如 下 所 示 。 


YY 


在 动态 语言 1 Ruby 中 ， 集 合 中 可 以 混合 存在 各 种 类 型 的 对 象 。 所 以 可 以 
定义 复杂 的 数组 。 


1 与 Java 这 样 的 静态 语言 不 同 ， 动 态 语言 总 可 以 调用 相同 的 方法 ， 与 继承 无 关 。 























[1,"two",[3,4]] 


上 面 的 例子 中 ， 数 组 的 第 1 个 元 素 是 1， 第 2 个 元 系 是 字符 串 two ， 第 
3 个 元 素 则 是 一 个 数组 。 


像 下 面 这 样 引用 数组 元 系 。 第 1 行程 序 是 初始 化 ， 第 2 行 是 引用 。 


ary = [1,2,3] 
ary[9] 











沿用 了 C 语言 的 习惯 ， 最 前 面 的 元 系 的 下 标 用 0。 元 素 的 下 标 也 可 以 用 
负数 来 指定 。 最 后 的 元 素 的 下 标 是 -1 参见 图 3-17) 。 


-5 -4 -3 -2 -1 




















0 4 





1 2 3 
图 3-17 数组 的 下 标 


不 仅 可 以 取出 一 个 元 素 ， 而 且 可 以 取出 一 部 分 元 素 。 范 围 的 指定 方法 如 
图 3-18 所 示 。 请 注意 .. 和 ... 的 不 同 ， 具 体 请 参照 图 3-19。 














[n,m] 开头 元 素 的 位 置 和 元 素 个 数 
[n. .m] 开头 元 素 和 末尾 元 素 的 位 置 〈 包 括 末尾 的 元 素 ) 
[n.. .m] 开头 元 素 和 来 尾 元 素 的 位 置 〈 不 包括 末尾 的 元 素 ) 




















图 3-18 取得 指定 范围 的 元 素 的 3 种 方法 


a = [1,2,3] 
a[1,2] # => [2,3] 从 下 标 为 1 的 元 素 开 始 取 两 个 元 素 
a[1..2] # => [2,3] 取 下 标 为 1 到 下 标 为 2 之 间 的 元 素 


a[1...2] # => [2] 取 下 标 为 1 到 下 标 为 2 之 前 的 元 素 





图 3-19 取出 部 分 元 素 的 示例 


修改 元 素 值 用 下 面 的 方法 ， 给 数据 元 系 赋 值 。 

















3.3.2 ”修改 指定 范围 的 元 素 内 容 


和 引用 一 样 ， 也 可 以 指定 范围 来 修改 元 素 的 内 容 。 在 赋值 式 的 右 端 指定 
要 蔡 换 的 对 象 数 组 。 


例如 下 面 的 例子 ， 要 蔡 换 从 下 标 为 1 的 元 素 开 始 的 0 个 元 素 ， 结 果 是 把 
石 边 的 数据 插入 到 下 标 为 1 的 元 系 前 面 。 





b[1,6] = [8,9] 
# 数 组 变 为 [2, 8,9,5,6] 

















数组 的 长 度 也 目 动 调整 。 下 面 的 例子 中 ， 葵 换 下 标 为 4 到 下 标 为 4 之 间 
的 元 素 ， 所 以 只 有 下 标 为 4 的 元 系 锌 置换 。 


b[4..4] = [1] 
# 数 组 变 为 [2,8,9,5,1] 

















下 面 的 例子 中 ， 蔡 换 从 下 标 为 3 到 下 标 为 4 之 前 的 元 素 ， 所 以 只 有 下 标 
为 3 的 元 系 修 置换。 


be .4] = [3] 
变 为 [2,8,9,3,1] 




















和 C 语言 、Java 语言 相 比 ，Ruby 的 数组 具有 以 下 特点 。 
。 Ruby 的 数组 是 对 象 ， 可 以 调用 各 种 方法 。 


。 用 [访问 数组 实际 上 是 方法 调用 。[ ] 是 方法 名 ， 里 面 的 值 是 参数 。 

。 变更 数组 元 素 实际 上 也 是 方法 调用 。[]= 是 方法 名 ， 里 面 和 右边 的 
值 是 参数 。 

3.3.3 ”Ruby 中 的 哈 希 处 理 


哈 希 是 一 个 典型 的 集合 ， 像 数组 一 样 被 广泛 使 用 。 它 用 来 表现 对 象 和 对 
ee 哈 希 表 可 以 用 哈 希 式 来 生成 。 图 3-20 中 是 定义 星期 的 
哈 布 式 。 

















”=> "Sunday", 
"Monday", 
"Tuesday", 
"Wednesday", 
"Thursday", 


"Friday", 
"Saturday"} 














图 3-20 ”定义 星期 关系 的 Hash 式 


这 种 对 应 关系 就 像 字典 一 样 ， 所 以 哈 希 航 称 为 字典 也 是 基于 这 个 原因 。 
另外 ， 由 “星期 天 ?可 以 联想 到 *Sunday”， 哈 希 是 这 种 联想 关系 的 排列 ， 
所 以 也 称 为 关联 数组 。 


哈 希 表 只 是 单 问 关联 。 所 以 上 面 的 例子 只 是 从 汉语 到 英语 的 对 应 关系 ， 
并 没有 从 英语 到 汉语 的 对 应 关系 。 相 当 于 字典 词 条 的 部 分 称 为 键 ， 翻 译 
解释 的 部 分 称 为 值 。 


哈 希 表 被 称 为 关联 数组 还 有 一 个 原因 。 前 面 已 经 说 明 哈 而 是 联想 关系 的 
排列 。 为 外 ， 数 组 可 以 看 成 是 从 整数 (下 标 〉 到 值 的 对 应 关系 ， 可 以 把 
数组 解释 成 整数 键 的 关联 数组 。 


其 实 ， 在 AWK 编程 语言 中 数组 和 关联 数组 是 一 样 的 ， 下 标 不 古 整数 的 
0 0 
组 。 








数组 的 元 素 是 按照 下 标的 整数 顺序 排列 的 ， 作 为 数据 结构 ， 哈 希 表 中 元 





素 的 顺序 则 是 不 定 的 。 从 Ruby 1.9 开始 ， 哈 希 表 开始 记录 元 素 的 顺序 ， 
即 元 素 的 插入 顺序 。 从 哈 希 表 中 取出 元 素 的 时 候 ， 顺 序 是 由 内 部 实现 决 
定 的 ， 很 难 预测 。 这 是 内 部 算法 的 限制 。 哈 希 算法 是 很 巧妙 的 算法 ， 快 
速 (O(1))“ 实现 从 键 到 值 的 检索 。 使 用 哈 希 算法 的 集合 称 为 哈 希 表 。 


2 0(1)(O one) 是 算法 复杂 度 表 示 法 定义 的 算法 速度 。 算 法 复杂 度 和 括号 内 的 算式 成 正比 。 


除了 键 值 可 以 不 是 整数 ， 哈 希 表 和 数组 没有 太 大 的 区 别 。 假 定 h 是 指 同 
人 key 是 键 ， 束 可 以 用 下 面 的 表达 式 取出 键 所 对 应 的 


人 


变更 哈 布 表 元 系 的 时 候 ， 写 法 也 是 和 数组 一 样 的 。 


h["key"]="value" 


3.3.4” 文 持 人 循环 的 Enumerable 


如 果 只 有 引用 和 变更 元 素 这 些 基 本 功能 的 话 ， 那 么 也 就 没有 什么 值得 特 
别 关注 的 。C 语言 和 Java 语言 也 有 数组 。Ruby 中 提供 的 方法 可 以 更 好 
地 发 挥 集合 的 作用 。 


Ruby 中 ， 集 合 的 功能 都 定义 在 Enumerable 这 个 Mix-in3 中 了 。 从 另 
一 个 角度 来 说 ， 只 要 把 Enumerable 模块 通过 Mix-in 继承 进来 ， 就 可 
以 使 用 集合 对 象 的 大 量 方法 了 。 表 3-4 中 列 出 了 Enumerable 提供 的 方 
法 。 





























3 Mix-in 是 抽象 类 之 一 。 既 具有 单一 继承 的 方法 构成 和 优先 顺序 的 明确 性 ， 又 可 以 像 多 重 继承 
一 样 继承 多 个 类 。 




















表 3-4 Enumerable 提供 的 方法 





EE 








all?{ |x|...} 块 对 所 有 的 元 素 是 否 都 为 真 
块 对 各 个 元 素 处 理 结果 的 数组 


结果 为 真 的 第 1 个 元 素 


each_with_index{|x,i|...} | 按照 下 标 顺序 对 各 个 元 素 处 理 
块 为 真 的 第 1 个 元 素 
grep(pattern){|x|...} 时 


include? (x) 和 x 相等 的 元 素 是 否 存在 
inject(init){|x,y|...} ”| 各 元 素 的 块 处 理 纪 
map {|x|...} 各 元 素 的 块 处 理 结果 的 数组 
max 最 大 的 元 素 
max {|a,b|...} 用 块 比 较 出 的 最 大 的 元 素 
max_by {|x|...} 用 块 变换 后 的 最 大 的 元 素 (Ruby 1.9) 
i 最 小 的 元 素 


min_by {lx| 用 块 变换 后 的 最 小 的 元 素 (Ruby 1.9) 


partition {|x|...} 用 块 把 真 假 元 素 分 开 
















































































































































































sort by {|x|...} 


sort {|a,b|...} 


,+ ) 





Enumerable 的 意思 是 可 数 的 ， 所 以 集成 了 对 集合 各 元 系 进 行 循环 处 理 


的 方法 。 这 些 方法 大 致 可 以 分 为 以 下 3 类 : 
。 循环 
。 指定 条 件 
。 排序 与 比较 大 小 
3.3.5 ”用 于 循环 的 each 方法 
和 each 。 下 面 的 程序 中 是 把 col 作为 集合 的 例 


col.each {|x| puts x} 


把 各 个 元 素 值 赋 给 变量 x ， 然 后 执行 puts x 。 但 是 在 Enumerable 中 
并 没有 定义 each 方法 。 反 之 ，Enumerable 中 的 所 有 方法 都 是 在 内 部 
调用 each 方法 来 实现 的 。 


只 要 是 可 以 用 each 方法 对 各 个 元 素 进行 循环 处 理 的 对 象 ， 如 果 用 
include 包含 了 Enumerable ， 就 可 以 使 用 表 3-4 中 所 表示 的 各 种 方法 
了 。 使 用 起 来 是 非常 方便 的 。 


循环 方法 中 最 简单 的 是 each_with_index 方法 。 它 的 处 理 是 在 对 元 素 
循环 时 加 上 下 标 〈 图 3-21)“。 
4 如 果 要 执行 图 3-21 中 的 Ruby 程序 ， 可 以 把 图 3-21 中 的 内 容 保存 在 zu5.m 文件 中 ， 然 后 执行 


Linux 的 命令 $ruby zu5.rb 。 但 是 ， 必 须要 像 Fedora Core 4 那样， 安装 了 Ruby 的 环境 才 可 
以 。 














"b", "c"] .each with index{ |x,i | 
"%d: %s\n", i, x} 








图 3-21 each_with_index 的 示例 





另外 ， 最 常用 的 方法 之 一 是 collect 。collect 是 对 各 个 元 素 执行 块 
处 理 ， 人 返回 处 理 结果 的 数组 。 块 的 执行 结果 是 块 中 最 后 一 个 表达 式 的 
值 。 比 如 下 面 的 程序 。 





[1,2,3].collect{|x| x*2} 
# 结 








在 Ruby 的 Enumerable 中 , 像 collect 、select 和 detect 等 方法 
一 样 ， 名 字 以 -ect 结尾 的 方法 有 很 多 。 这 些 方法 名 是 继承 自 Smalltalk 
的 。collect 的 别名 map 也 继承 自 Lisp 编程 语言 中 的 方法 名 。 











3.3.6 ”使 用 inject 、zip 和 grep 
下 面 介 绍 几 个 不 同 于 循环 的 方法 。 


inject 是 用 块 来 把 各 个 元 素 结合 起 来 。 用 语言 很 难 解 释 清 楚 ， 请 看 图 
3-22 中 的 示例 。 输 出 的 结果 是 120。 


ary = [1,2,3,4,5] 
p ary.inject{|n,i| n * i} # => 126 





图 3-22 inject 方法 的 示例 


inject 首先 把 第 1 个 和 第 2 个 元 素 传 递 给 块 。 


然后 把 结果 和 第 3 个 元 素 传 递 给 块 。 


这 样 到 最 后 ， 循 环 结果 就 变 成 了 1*2*3*4*5。 用 inject 好 像 是 往 各 
元 素 之 间 注 入 了 运算 符 ， 这 就 是 inject (注入 ) 名 字 的 由 来 吧 。 
zip 是 从 多 个 集合 中 并 行 取得 元 素 的 方法 。 有 具体 请 看 下 面 的 例子 。 


马 [1,2,3] 
[2,4,6] 
.Zip 





结果 


人 





没有 块 的 zip 调用 ， 可 以 把 复数 个 集合 的 第 n 个 元 素 结合 成 一 个 数组 返 
回 。 男 外 ， 如 果 有 块 的 调用 ， 那 么 参数 的 第 n 个 元 系 部 一 起 传 递 给 块 
来 处 理 〈 参 见 图 3-23) 。 这 和 图 3-24 中 的 处 理 基 本 上 是 相同 的 ， 因 为 
没有 生成 多 余 的 数组 ， 效 率 就 稍微 高 一 点 。 


x,y| printf "[%s,%s]\n",x,y} 





并 并 间 并 中 Dy 


一 一 r 一 tN 1 中 
w IN 上 Ep. 








图 3-23 zip 方法 的 示例 ， 调 用 了 块 


a.zip(b).each{f|x,y|printf 
"[%s,%s]\n",x,y} 

















图 3-24 zip 方法 的 示例 ， 因 为 调用 了 each ， 所 以 和 图 3-22 中 程序 相 比 效率 稍 低 


grep 方法 可 以 对 集合 中 的 元 素 进行 模式 匹配 。 匹 配 用 === 运 算 符 。 和 
zip 一 样 ， 如 宁 指 定 了 块 ， 就 不 用 生成 数组 ， 而 是 把 各 个 匹配 的 元 素 传 
递 给 块 来 处 理 〈 人 参见 图 3-25) 。 




















a = ["foo","bar","baz"] 
a.grep(/^b/) 
# 结果 〈 从 b 开始 的 元 素 ) 





# ["bar", "baz"] 


a.grep(/^b/) {|x|printf "%s\n",x} 
# 输出 
# bar 
# baz 











图 3-25 ”grep 方法 的 示例 


3.3.7 ”用 来 指定 条 件 的 select 方法 


对 集合 的 各 个 元 系 进 行 块 处 理 的 是 循环 类 型 的 方法 。 和 它 相 对 的 ， 对 各 
1 用 块 处 理 的 结果 作为 下 个 处 理 的 判定 条 件 的 是 条 件 
定型 方法 。 


条 件 指定 型 方法 中 最 常用 的 是 select 方法 。select 方法 把 块 处 理 结 
果 为 真 的 元 素 存 放 在 数组 中 返回 。 这 个 方法 的 别名 是 find_all 。 














a = [1,2,3,4] 
a.select{|x| x%2 == 6} 
# 结果 偶数) 





# [2,4] 





和 select 动作 相反 的 方法 是 reject 。reject 方法 返回 块 处 理 结果 为 
假 的 元 素 的 数组 。 
a = [1,2,3,4] 


a.reject{|x| x%2 == 6} 
# 结果 (奇数 ) 








如 果 想 找 出 第 一 个 满足 条 件 的 元 系 ， 束 可 以 用 detect 方法 。 它 的 别名 


是 find 。 


a = [1,2,3,4] 
a.detect{|x| x%2 == 6} 























结果 (最 初 的 偶数 ) 
2 








# 
# 





真 假 结果 都 需要 的 情况 也 不 能 说 没有 。 这 样 一 个 八 面 玲珑 的 方法 是 
partition 。partition 方法 把 真 的 和 假 的 元 素 的 数组 作为 块 返回 


[1,2,3,4] 
artition{ |x | x%2 == 6} 














全 部 元 素 是 否 为 真 ， 或 者 至 少 有 一 个 元 系 为 真 的 判断 方法 是 al1? 和 
any? (参见 图 3-26) 。 


[true, truel] 
[false, true] 
2 => true 全 部 为 真 ) 
=> false 不 是 全 部 为 真 ) 
=> true (a 有 真 的 元 素 ) 
# => true (b 有 真 的 元 素 ) 














图 3-26 al1? 和 any? 方法 的 使 用 示例 


all? 和 any? 可 以 用 块 处 理 的 结果 作为 判定 条 件 。〔 参 见 图 3-27) 


二 [1,2,3] 
c.all?{|x|x%2==6} # => false 
c.any?{|x|x%2==6} # => true 








图 3-27 all? 和 any? 方法 的 使 用 示例 ， 调 用 了 块 


3.3.8 ”排序 与 比较 大 小 的 方法 





有 一 些 方法 是 用 来 比较 块 执行 结果 的 大 小 。 


min 和 max 分 别 返 回 集合 中 的 最 小 和 最 大 的 元 素 ， 如 果 调 用 了 块 ， 那 么 
会 把 两 个 元 素 传递 给 块 来 比较 大 小 。 比 较 用 <=> 运算 符 ，a >b 的 时 候 返 
回 正 整数 ，a= 时 返回 零 ，a <b 时 返回 负 整 数 。 


ary = ["1", 
p ary.max 
# => "6" (字符 串 ) 


p ary.max{|a,b| a.to i <=> b.to i} 


# => "11" (数值 ) 








sort 方法 把 集合 的 元 系 按 照 从 小 到 大 的 顺序 排列 。 和 min 一 样 可 以 用 
块 来 比较 大 小 《参见 图 3-28) 。 











图 3-28 sort 方法 的 示例 


sort 的 每 次 比较 都 要 执行 块 处 理 ， 那 么 每 次 比较 都 要 做 整数 化 变换 ， 
这 是 有 些 浪费 资源 的 。 排 序 时 要 比较 的 次 数 很 多 ， 而 比较 次 数 也 会 随 着 
元 素 个 数 的 增加 而 增加 。 所 以 ， 如 果 先 一 次 性 把 集合 中 全 部 元 素 都 变换 
好 的 话 ， us 比较 的 开销 ， 这 种 变换 称 为 施 瓦 次 变换 (Schwarzian 
Transform) 。 它 是 以 Perl 界 闭 名 人 士 Randal Schwarz 的 名 字 而 命名 

的 。 





其 体 请 看 下 面 的 例子 “参见 图 3-29) 。 


ary.map{ |i|[i.to i,i]}.sort.map{|j|j[-1]} 





图 3-29 使 用 施 瓦 次 变换 进行 排序 的 示例 
下 面 按照 顺序 来 说 明 一 下 。 从 ary 开始 的 前 半 部 分 


ary.map{ |i|[i.to i,i]} 








| 


征 从 元 系 计 算 用 作 比 较 对 象 的 整数 值 (i.to_i ) ， 然 后 把 它 和 元 素 一 
起 放 入 数组 。 对 数组 排序 ， 


.Sort 


最 后 从 中 取出 原来 数组 的 元 系 ， 就 得 到 了 排序 结 末 。 


‘map{|j|j[-1]} 


计算 比较 值 的 次 数 与 元 素 个 数 是 一 样 的 ， 所 以 元 素 在 很 多 时 候 排 序 的 时 
间 差 别 就 会 很 大 。 因 为 这 种 写法 是 很 难 记 住 的 ， 所 以 Ruby 提供 了 施 瓦 
次 变换 的 简单 方法 sort_by 。 

















让 六 三 并 1 6] 
ary.sort by{|x| x.to i} 





元 


# [S13 DD "6", "11"] 





和 前 面 的 施 瓦 次 变换 相 比 ， 写 法 变 得 简单 多 了 。 和 通常 用 块 进行 比较 的 
Se. 方法 相 比 也 显得 简洁 。 所 以 sort_by 是 既 简 单 好 用 又 效率 高 的 方 
人 


Ruby 1.9 的 开发 版 也 提供 了 min_by 和 max_by 方法 ， 它 们 与 min 和 
max 方法 形式 一 样 ， 可 以 用 块 来 指定 比较 方法 。 


还 有 几 个 方法 ， 不 属于 以 上 的 循环 、 条 件 指 定 、 排 序 及 比较 大 小 。 比 如 
有 元 素 判定 方法 member? (别名 是 include? ) ， 返 回 所 有 元 素 的 方 
法 entries (别名 是 to_a ) 。 








3.3.9 ”在 类 中 包含 〈include) Enumerable 模块 


如 果 有 each 方法 ， 就 可 以 通过 包含 Enumerable 模块 ， 来 试 一 下 
Enumerable 的 各 种 方法 。 请 看 图 3-30 中 的 程序 。 最 初 先 在 类 

Dice《〈 骨 子 ) 里 指定 了 掷 般 子 的 次 数 ， 然 后 包含 Enumerable 模块 ， 最 
后 把 3 以 下 的 结果 排除 掉 。 


# (1-1) Dice 类 定义 
class Dice 
def initialize(n) 
@n = n 
end 
def each 
@n.times { 
yield rand(6)+1 
} 
end 
end 


# (1-2) Dice 对 象 的 生成 
# 生成 要 投掷 16 次 般 子 
dice = Dice.new(16) 
# 用 each 方法 来 掷 山子 


dice.each {|x| puts x} 








# (1-3) 往 Dice 类 中 包含 Enumerable 
# 增加 功能 
class Dice 
include Enumerable 
end 








# (1-4) 用 继承 的 reject 排除 3 以 下 的 结果 
# 已 经 后 成 的 对 象 也 会 拥有 新 退 加 的 功能 
p dice.reject{|x| x<=3} 

















图 3-30” 撕 散 子 的 Dice 类 。 定 义 类 之 后 ， 通 过 包含 Enumerable 模块 来 增加 方法 


(1-1) 中 定义 了 Dice〈 般 子 ) 类 。 初 始 化 方法 initialize (相当 于 
Java、C++ 的 构造 函数 ) 中 ， 给 实例 变量 @n 设置 了 投掷 次 数 ? 。Ruby 中 
以 @ 开始 的 变量 是 实例 变量 。 


5 实例 变量 是 指 各 个 对 象 中 拥有 各 自 独 立 值 的 变量 。 
































each 方法 中 ， 用 times 方法 做 @n 次 循环 。 实 际 投掷 盘子 的 结果 是 用 随 


机 数 函 数 rand 来 生成 的 。rand 方法 返回 从 0 到 指定 参数 之 间 的 随机 
数 。 在 图 3-30 的 程序 中 ，rand(6)+1 来 生成 山子 上 从 1 工 到 6 的 数 。 


生成 的 随机 数 用 yield 传递 给 块 。 调 用 yield 可 以 使 方法 的 执行 暂时 
停止 ， 转 而 来 执行 块 的 处 理 。 块 处 理 执行 完了 之 后 ， 程 序 再 次 从 yield 
的 下 一 行 开始 继续 执行 。 


这 里 定义 的 Dice 类 ， 除 了 构造 函数 之 外 只 有 each 这 个 方法 。 在 (1- 
2) 中 ， 生 成 了 Dice 类 对 象 ， 调 用 each 方法 来 做 投掷 般 子 的 处 理 。 但 
是 如 果 只 是 表示 10 个 数字 的 话 ， 程 友 束 没有 趣味 性 了 。 


所 以 在 (1-3 ) 中 ， 在 Dice 类 中 通过 包含 Enumerable 模块 来 增加 了 
功能 。Ruby 中 ， 可 以 用 class 语句 给 已 经 存在 的 类 增加 功能 。 这 个 例 
子 中 ， 本 来 一 开始 就 可 以 在 Dice 类 中 包含 Enumerable 模块 的 ， 但 为 
了 介绍 这 个 功能 ， 我 们 就 特意 分 开 写 了 。 

最 后 的 (1-4) 中， 利用 Enumerable 的 reject 方法 ， 把 3 以 下 的 结 

排除 挥 了 。 请 注意 已 经 生成 的 对 象 也 可 以 用 这 个 方法 。 


通过 介绍 Dice 类 的 这 个 例子 ， 我 们 是 否 掌握 了 块 的 调用 方法 和 包含 
Enumerable 模块 的 好 处 了 呢 ? 


3.3.10 “列表 内 包 表 达 式 和 块 的 区 别 


如 上 所 述 ， 我 们 用 Ruby 的 块 来 对 集合 进行 处 理 。 但 是 在 Python 和 
Haskell 编程 语言 中 ， 用 列表 内 包 表 达 式 (List Comprehension ) 功能 来 
处 理 集合 的 场合 比较 多 。 这 是 处 理 数组 的 另 一 种 方法 。 具 体 的 定义 方法 
如 下 。 


[f(x) for x in coll] 


这 个 表达 式 的 意思 是 ， 把 col 集合 的 各 个 元 素 赋 值 给 x ， 然 后 用 f(x) 
来 处 理 ， 最 后 返回 结果 的 数组 。 如 果 用 Ruby 的 Enumerable 来 实现 的 
话 ， 和 我 们 前 面 学 过 的 一 样 ， 程 序 如 下 所 示 。 


col.collect{ |x|f(x)} 








| 


列表 内 包 表 达 式 也 可 以 像 下 面 这 样 来 处 理 满 足 特 定 条 件 的 元 素 。 


[f(x) for x in col if g(x)] 


增加 了 if g(x) 条 件 ， 返 回 的 数组 中 就 只 包含 满足 g(x) 条 件 的 元 素 。 
用 Ruby 的 话 是 像 图 3-31a 那样 。 图 3-31b 则 是 Ruby 1.9 的 省 略 写 法 。 


#(a) 
col.select{|x|g(x)}.collect{ |x|f(x)} 
#(b 


col.select(&:g).collect(&:f) 








图 3-31 相当 于 列表 内 包 表 达 式 Ruby 写法 
列表 内 包 表 达 式 写法 是 和 自然 语言 (英语 ) 很 接近 的 ， 而 且 程 序 比 用 
Ruby 的 Enumerable 方法 还 更 为 紧 竣 ， 所 以 在 Python 编程 语言 的 用 户 
中 非常 受 欢迎 。Python 中 也 有 和 collect 一 样 功 能 的 map 函数， 但 是 
因为 有 列表 内 包 表 达 式 功能 ， 甚 至 有 人 建议 要 废除 这 样 的 函数 。 


但 是 有 人 不 喜欢 列表 内 包 表 达 式 写法 中 的 顺序 。 例 如 刚才 的 程序 : 


[f(x) for x in col if g(x)] 


首先 ， 把 col 的 各 个 元 素 赋 值 给 x ， 然 后 执行 g(x) ，g(x) 的 结果 为 
真 的 元 素 再 执行 f(x) ， 最 后 把 对 g(x) 为 真 的 元 素 执 行 f(x) 的 结果 作 
成 列表 ， 这 个 列表 成 为 列表 内 包 表 达 式 的 返回 值 。 英 文 不 好 的 日 本 人 ， 
可 能 会 觉得 很 不 容易 理解 。 也 许 习惯 了 就 好 了 ， 但 总 还 是 不 够 直观 吧 。 


列表 内 包 表 达 式 是 很 深奥 的 ， 但 是 因为 下 面 这 些 原因 ，Ruby 在 将 来 也 
不 会 采用 这 个 功能 。 


。 日 本 人 《特别 是 我 ) 读 起 来 不 太 顺 ， 魅 力 不 够 。 























。 执行 顺序 相反 ， 与 Ruby 的 其 他 部 分 (基本 是 从 左 到 右 ) 不 一 致 。 


。 只 能 实现 collect 和 select 功能 的 组 合 ， 和 列表 内 包 表 达 式 功能 相 
比 ， 块 的 应 用 领域 更 广 〈 虽 然 程 序 有 点 了 见长 ) 。 


因为 这 种 功能 是 很 有 趣 的 ， 所 以 简单 地 介绍 了 一 下 。 
从 语法 的 外 观 到 广泛 的 应 用 
在 本 文中 提 到 了 Ruby 的 块 是 继承 了 MIT 开发 的 CLU 编程 语言 的 从 
代 需 功能 。CLU 的 欠 代 堪 是 使 用 for 循环 的 内 部 迭代 右 。 
Ruby 设计 之 初 ， 对 于 块 的 实现 考虑 了 好 几 种 方法 。 比 如 用 下 面 的 
using 关键 字 来 指定 参数 。 
method using X 
end 
或 者 用 do 关键 字 明 确 地 调用 块 。 


do method using x 


end 


最 终 还 是 觉得 现在 的 用 法 比较 好 。 如 果 用 for 或 者 do 这 样 的 语句 ， 
那么 就 会 妨碍 循环 抽象 化 以 外 的 应 用 了 。 


设计 时 做 出 的 “不 用 for 语句 ”这 个 小 小 的 决定 ， 结 果 使 得 块 得 到 了 广 
泛 的 应 用 。 想 想 这 小 小 的 “外 观 上 的 不 同 ” 带 来 的 结果 ， 真 是 不 能 小 看 
啊 。 


语法 相当 于 一 般 软 件 的 用 户 交 互 界 面 ， 软 件 开 发 人 员 往 往 偏重 于 “ 它 
能 做 什么 ”这 样 功 能 性 的 一 面 ， 但 从 Ruby 块 的 发 展 经 历 看 来 , “怎样 
实现 "这样 的 用 户 界 面 实际 上 有 是 非常 重要 的 。 








第 4 章 设计 模式 
4.1 设计 模式 〈1) 


设计 模式 是 个 编程 术语 ， 它 是 指 设计 上 经 常 反 复 使 用 的 模式 。 这 个 词 本 
来 用 于 建筑 界 ， 表 示 各 种 各 样 的 建筑 物 、 街 道 的 设计 上 共通 的 创意 及 构 
成 的 组 合 。 即 使 在 建筑 界 ， 这 个 词 也 是 近 些 年 来 才 开始 使 用 的 。 设 计 模 
式 这 一 思想 好 像 起 源 于 Christopher Alexander 的 The Timeless Way of 
Building + (牛津 大 学 出 版 社 ，1979) 一 书 。 


1 其 中 文 版 为 《建筑 的 永恒 之 道 》， 由 知识 产权 出 版 社 出 版 。 一 一 编者 注 
通常 ， 建 筑 物 的 设计 各 不 相同 ， 男 外 加 上 用 途 、 建 筑 条 件 等 各 种 制约 因 


素 ， 一 个 设计 是 不 能 一 成 不 变 地 套用 到 别 的 建筑 物 上 的 。 建 筑 设 计 师 只 
征 通过 重用 积累 的 设计 模式 ， 试 图 缩短 设计 所 花费 的 时 间 。 

话说 回 到 软件 上 来 ， 重 用 的 手法 在 软件 行业 比 在 建筑 界 中 得 到 了 更 广泛 
的 使 用 。 一 般 是 通过 库 的 形式 ， 各 种 软件 共享 处 理 过 程 、 数 据 络 构 以 及 
类 等 。 实 际 上 ，Linux 等 操作 系统 提供 了 数 不 清 的 各 种 库 。 

但 是 ， 只 有 库 还 不 能 达到 充分 地 共享。 软件 设计 中 有 些 东 西昌 然 不 能 以 
库 的 形式 来 把 它 独 立 出 来 ， 但 是 多 个 软件 共通 利用 的 东西 是 确实 存在 
的 。 这 样 的 东西 只 能 称 之 为 固定 形式 一 一 模式 。 

比如 ， 让 我 们 来 看 一 个 最 简单 的 模式 吧 。 


for (int i=6; i<len; i++) { 












































ee 





这 是 称 之 为 for 循环 的 固定 形式 。 在 索引 变量 i 从 0 到 len 变化 的 过 
程 中 进行 相应 的 处 理 。 有 C、C++ 或 Java 等 编程 经 验 的 人 ， 同 样 的 代码 
恐怕 见 过 成 百 上 于 遍 了 。 但 是 ， 这 个 简单 的 处 理 并 不 能 以 库 的 形式 来 共 
享 。 这 不 是 库 ， 而 应 该 称 之 为 模式 。 





在 软件 设计 中 像 这 样 的 模式 数不胜数 。 不 过 ， 设 计 人 员 自 己 很 少 能 够 意 
识 到 模式 的 存在 ， 一 般 是 在 积 款 了 很 多 经 验 之 后 ， 才 几乎 在 无 意识 之 中 
利用 模式 提高 了 软件 开发 的 效率 。 


Erich Gamma 与 几 位 合作 者 < 一 起 ， 精 选 了 软件 设计 中 ， 特 别 是 面向 对 
象 软件 设计 中 反复 出 现 的 各 种 模式 ， 比 照 着 Alexander 提倡 的 建筑 上 的 
概念 ， 称 之 为 “设计 模式 ”。 他 们 从 自己 及 周围 的 开发 经 验 中 把 模式 总 结 
出 来 并 进行 分 类 ， 出 版 了 《设计 模式 》 一 书 。《 设 计 模 式 》 中 介绍 了 表 
4-1 中 列 出 的 23 种 模式 。 


2 《设计 模式 》 的 作者 中 以 Erich Gamma 最 为 著名 ， 其 他 3 人 Richard Helm、Ralph Johnson 和 
John Vlissides 也 是 功 不 可 没 。 他 们 4 人 被 称 为 “< 四人帮”。 


表 4-1 《设计 模式 》 中 介绍 的 23 种 设计 模式 


用 可 配置 的 方法 生成 有 关 的 对 象 群 

变换 对 象 的 接口 

分 离 类 之 间 的 实现 

Builder (生成 器 ) 分 离 复杂 对 象 的 生成 过 程 
请 求 


9 9 se 口 再 
of Responsibility〈 职 贡 用 多 个 对 象 来 处 理 
Command (命令 ) 把 请 求 封装 成 对 象 
Composite (组 合 ) 用 树 结构 来 构成 对 象 


Decorator 〈 装 饰 ) 给 对 象 动 态 增 加 新 的 功能 
Facade 〈 外 观 ) 


































































































Flyweight 〈 享 元 ) 
Interpreter 〈 解 释 器 ) 
Iterator 〈 迭 代 器 ) 
Mediator ( 



































Observer (观察 者 ) J 通知 给 其 他 对 象 
Prototype (原型 ) 是 供 生 成 对 象 的 原型 
















































































Proxy 〈 代 理 ) 是 供 控制 对 象 访 问 的 代理 《容器 ) 

















Singleton 〈 单 件 ) 用 来 保证 某 个 类 的 实例 只 有 一 个 
State〈 状 态 ) 把 对 象 的 内 部 状态 独立 出 来 ， 封 装 状态 变化 


[IT 









































Template Method (模板 方法 ) ”| 父 类 定义 框架 ， 派 生 类 具体 实现 其 中 一 部 分 
Visitor (访问 者 ) 对 集合 的 元 素 进 行 操 作 














4.1.1 设计 模式 的 价值 和 意义 


Gamma 他 们 并 没有 发 现 新 的 模式 。 总 结 出 来 的 23 种 设计 模式 也 都 是 软 

件 开发 中 早 就 存在 并 反复 使 用 的 模式 ， 因 此 并 不 能 说 是 Gamma 他 们 的 

0 
么 有 呢 ? 


首先 ， 它 明确 了 各 种 模式 的 效果 和 适用 状况 ， 给 众多 模式 命名 并 进行 分 
类 ， 这 本 里 束 是 非常 有 意义 的 。 如 果 没 有 名 字 的 话 ， 即 使 使 用 了 模式 ， 
程序 员 也 大 都 没有 明确 意识 到 使 用 了 模式 。 因 为 意识 不 到 应 该 使 用 的 模 
式 ， 就 会 错过 最 合适 的 设计 。 


但 是 ， 他 们 最 大 的 功绩 并 不 在 于 把 设计 模式 进行 分 类 ， 而 是 明确 了 “ 软 
件 中 可 以 分 类 的 设计 模式 ”的 存在 。 有 了 这 样 的 认识 之 后 ， 设 计 模 式 就 
不 仅 限 于 书 中 介绍 的 23 个 ， 人 们 开始 发 现 和 定义 更 多 设计 模式 。 


设计 模式 有 了 名 字 ， 人 们 就 可 以 认识 到 它 的 存在 。 对 于 没有 名 字 的 东 
西 ， 人 们 几乎 不 可 能 认识 到 它 的 存在 ， 并 对 之 进行 讨论 。 这 种 不 能 用 语 
言 表达 的 知识 我 们 称 之 为 内 隐 知 识 。 给 这 些 在 软件 中 经 常 反复 出 现 的 模 
式 命名 ， 使 得 这 些 本 来 只 有 经 验 丰富 的 程序 员 才 能 认识 到 的 软件 设计 模 
式 能 被 广泛 认识 和 讨论 。 这 样 的 知识 称 为 形式 知识 。 把 迄今 为 止 普通 人 
难于 学 习 和 吸收 的 内 隐 知 识 变 成 形式 知识 的 功绩 是 无 与 伦比 的 。 


4.1.2 ”设计 模式 是 程序 抽象 化 的 延伸 


从 软件 设计 进化 的 观点 来 看 设计 模式 的 话 ， 可 以 把 设计 模式 看 成 是 软件 
抽象 化 的 新 工具 。 
到 目前 为 止 ， 把 共通 处 理 进 行 抽象 化 ， 结 果 产 生 了 例 程 ， 把 数据 构造 也 


包括 在 一 起 进行 抽象 化 ， 结 果 产 生 了 抽象 数据 类 型 ， 把 抽象 数据 类 型 的 
共通 部 分 再 进行 抽象 ， 因 而 产生 了 继承 这 一 工具 。 就 像 这 样 ， 软 件 设 计 


























总 是 在 不 断 地 导入 新 工具 ， 以 实现 更 高 度 的 抽象 化 。 


继承 是 把 单一 类 的 共通 部 分 抽象 化 ， 以 达到 再 利用 的 目的 ， 但 是 ， 面 向 
对 象 的 系统 很 少 是 由 单一 的 类 来 实现 的 ， 几 乎 都 是 由 很 多 类 组 合 构成 
的 。 在 这 种 类 的 组 合 中 ， 就 会 有 一 些 大 同 小 异 的 模式 出 现在 各 种 不 同 的 
系统 中 。 这 些 模式 是 无 法 用 类 库 来 抽象 的 ， 为 达到 再 利用 的 目的 ， 设 计 
模式 这 种 形式 是 最 有 效果 的 。 


有 了 设计 模式 这 种 方法 ， 这 些 用 类 库 所 实现 不 了 的 类 构成 的 模式 就 可 以 
在 各 种 各 样 的 状况 下 得 到 应 用 。 模 式 的 分 类 是 个 很 抽象 的 概念 ， 的 确 是 
比 单纯 的 例 程 或 类 库 要 难得 多 ， 但 设计 模式 有 可 能 带 来 极 高 的 生产 效 
率 ， 这 是 其 他 方法 所 不 能 达到 的 。 


类 设计 本 质 上 是 非常 困难 的 ， 构 思 出 来 最 优 的 一 组 类 来 达到 目的 ， 这 件 
事 并 不 是 随便 谁 都 能 做 到 的 。 但 是 ， 一 旦 有 了 设计 模式 ， 只 要 把 过 去 优 
秀 的 人 们 考虑 出 来 的 模式 拿 来 应 用 一 下 ， 谁 都 可 以 做 出 优秀 的 设计 。 


4.1.3 ”Ruby 中 的 设计 模式 


《设计 模式 》 一 书 是 用 C++ 和 Smalltalk 介绍 模式 实例 的 。 看 了 那些 例 
子 ， 大 家 都 会 感觉 到 ， 绝 大 多 数 的 模式 用 Smalltalk 实现 起 来 非常 简 
单 。 这 是 为 什么 呢 ? 


因为 Smalltalk 没有 静态 类 型 ， 所 以 也 就 不 需要 匹配 类 型 的 模板 等 机 
制 ， 也 不 需要 仪 仅 为 满足 类 型 要 求 而 进行 继承 ， 这 就 是 Smalltalk 用 起 
来 很 简单 的 原因 。 而 且 ， 由 于 语言 本 身 的 动态 性 质 ， 有 些 模 式 根本 不 必 
要 以 模式 的 形式 来 抽象 出 来 就 可 以 得 到 简洁 的 实现 ， 这 也 是 Smalltalk 
显得 简单 的 原因 之 一 。 

Ruby 在 很 多 方面 很 像 Smalltalk， 实 现 设 计 模式 也 毫 无 困难 。 一 般 说 
来 ， 用 Ruby 来 实现 设计 模式 的 场合 ， 要 比 C++ 简 洁 得 多 ， 有 些 模式 用 
现成 的 库 就 足以 表现 。 


下 面 以 Ruby 为 中 心 ， 让 我 们 来 看 几 个 在 实际 设计 中 应 用 设计 模式 的 例 
于 




















4.1.4 Singleton 模 式 


首先 ， 让 我 们 来 看 一 下 最 简单 的 一 个 设计 模式 ，Singleton〈 单 件 ) 模 
式 。Singleton 模式 用 来 保证 茶 个 类 的 实例 只 有 一 个 。 
为 什么 需要 Singleton 模式 呢 ? 比如 作为 其 他 对 象 的 雏形 而 存在 的 对 象 


《用 于 Prototype 模式 ) ， 以 及 系统 全 体 只 存在 唯一 一 个 的 对 象 等 ， 都 
要 用 到 Singleton 模式 。 


用 Ruby 实现 Singleton 模式 的 方法 有 几 个 ， 让 我 们 按 顺 序 来 逐一 说 明 。 
使 用 singleton 库 的 方法 


Ruby 已 经 以 库 的 形式 实现 了 Singleton 模式 。 如 图 4-1 所 示 ， 使 用 
singleton 库 的 话 ， 在 任意 的 类 里 只 要 包含 〈include) 上 Singleton 模块 ， 
那个 类 就 变 成 了 Singleton 模式 的 对 象 。 

require "Singleton' 


class PrintSpooler 
include Singleton 











end 


PrintSpooler.instance.spool(document) 








图 4-1 使 用 singleton 库 的 Ruby 代码 


要 想 取 得 Singleton 模式 的 类 的 对 象 ， 像 图 4-1 最 后 一 行 那样 ， 使 用 该 类 
的 instance 方法 。 如 果 该 类 对 象 还 没有 生成 ，instance 方法 会 生成 
该 类 对 象 并 返回 。 如 果 该 类 对 象 已 经 生成 ，instance 方法 就 返回 既 有 
对 象 。 


使 用 类 或 模块 
C++ 和 Java 是 不 能 把 类 作为 对 象 来 使 用 的 ， 与 之 不 同 的 是 ，Smalltalk 或 


Ruby 能 把 类 也 作为 对 象 来 处 理 。 因 此 ， 在 类 或 模块 里 定义 一 个 方法 就 
可 以 实现 Singleton 模式 《参见 图 4-2) 。 














class PrintSpooler 
def PrintSpooler::spool(doc) 


end 


end 


PrintSpooler.spool(document) 























图 4-2 利用 类 定义 来 实现 Singleton 模式 的 代码 
把 一 般 的 对 象 作 为 Singleton 来 使 用 


为 了 把 一 个 类 的 对 象限 制 成 只 有 一 个 ， 并 不 一 定 需 要 对 对 象 的 一 般 生 成 
方法 加 以 限制 。 我 们 可 以 生成 一 个 一 般 的 对 象 ， 然 后 遵守 绅士 协定 ， 不 
要 再 生成 其 他 更 多 个 对 象 ， 也 惑 行 了 《参见 图 4-3) 。 


class PrintSpooler 
def spool(doc) 











end 
end 





# 把 唯一 的 对 象 赋值 给 一 个 固定 变量 
Spooler = PrintSpooler.new 
Spooler.spool(document) 











图 4-3 在 编程 上 下 点 工夫 来 实现 Singleton 模式 
使 用 对 象 和 特异 方法 


其 实 还 有 不 用 类 就 可 以 实现 的 方法 。Ruby 可 以 在 对 象 生成 之 后 再 增加 
新 的 方法 ， 这 样 我 们 残 可 以 生成 一 个 0bject 类 的 对 象 ， 然 后 给 它 退 加 
必要 的 功能 (参见 图 4-4) 。 


Spooler = Object.new 
def Spooler.spool(doc) 

















end 


Spooler.spool(document) 











图 4-4 利用 特殊 方法 来 实现 Singleton 模式 的 代码 


这 种 使 用 特异 方法 的 办 法 是 很 符合 Ruby 特征 的 。Ruby 自身 的 mai (n 
最 高 层 的 self) 及 ARGF (虚拟 文件 ， 用 来 代表 参数 所 指定 的 文件 ) 等 
也 都 是 用 这 种 方法 实现 的 。 





4.1.5 ”Proxy 模 式 


Proxy〔 代 理 ) 模式 是 为 某 个 对 象 提供 代理 对 象 的 模式 。 为 什么 需要 
Proxy 模式 呢 ? 

假设 有 个 生成 代价 非常 大 的 对 象 。 如 果 在 还 不 知道 是 否 真正 需要 该 对 象 
的 时 候 就 事先 生成 它 的 话 ， 可 能 会 市 来 很 大 的 浪费 。 但 话 虽 这 么 说 ， 不 
生成 对 象 的 话 什 么 事 也 做 不 了 。 这 时 候 代 理 对 象 就 有 用 武之 地 了 。 


比如 字 处 理 软件 ， 它 利用 Proxy 对 象 来 处 理 仍 入 图 像 ， 把 藤 入 图 像 的 
生成 处 理 延 迟到 需要 表示 的 瞬间 才 来 进行 。 


Ruby 的 库 中 也 有 使 用 Proxy 模式 的 。 比 如 tempfile 库 ， 它 不 用 指定 文件 
名 就 可 以 生成 临时 的 工作 文件 《参见 图 4-5) 。 























# 生成 Tempfile 

f = Tempfile.new("foo") 
# 往 Tempfile 输出 
f.print("foo\n") 








p f.gets # => "foo\n" 






































图 4-5 采用 Proxy 模式 的 tempfile 库 的 使 用 示例 


Tempfile 类 与 实际 负责 文件 输出 的 IO 类 没有 继承 关系 ， 它 的 有 天 输 
入 、 输 出 处 理 的 方法 都 通过 Proxy 委派 到 实际 的 I0 类 对 象 。 因 此 ， 通 
ee 类 的 对 象 ， 在 任何 有 必要 的 时 候 也 都 可 以 使 用 相关 的 
IO 对 家 。 


Proxy 模式 也 可 以 用 Ruby 的 库 来 实现 。 使 用 delegate 库 就 可 以 了 。 
delegate 是 委托 的 意思 。Tempfile 类 也 是 用 delegate 库 来 实现 的 〈( 参 
见 图 4-6) 。 








require "delegate， 














# 生成 obj 的 代理 对 象 
proxy = SimpleDelegator.new(obj ) 








# 通过 proxy 来 调用 obj 的 some_method 
Proxy.some method 























图 4-6 使 用 delegate 库 来 实现 Proxy 模式 的 例子 


看 一 下 束 知 道 ，delegate 库 的 源 代码 是 相当 复杂 的 ， 但 基本 上 只 是 把 被 
调用 的 方法 都 委派 到 本 来 的 对 象 那里 去 。 这 里 使 用 的 是 Ruby 的 
method_missing 方法 。 


Ruby 中 对 对 象 A WA CW DES A 的 

method_missing 方法 就 会 被 调用 。 传 递 给 method _missing 的 参数 是 

条 有 党 迷人 如 上 不 和 在 的 这 利用 这 一 框 染 就 可 以 
民 简 单 地 实现 Proxy 模式 (参见 图 4-7〉。 


class Proxy 
def initialize(orig) 
@obj = orig 
end 
def method missing(name, *args) 
@obj.send(name, *args) 
end 
end 








proxy = Proxy.new(obj) 


# proxy.some_method 通过 proxy 来 调用 obj 的 some_method 





图 4-7 使 用 method_missing 方法 来 实现 Proxy 模式 的 例子 


怎么 样 ， 真 的 是 非常 简单 吧 。 但 是 ， 这 种 实现 方式 也 有 不 灵光 的 时 候 。 
Proxy 类 类 固有 的 方法 被 调用 的 时 候 ， 是 不 会 委派 到 method missing 方 
法 的 。 也 束 是 说 ， Proxy 类 的 父 类 Object 类 的 方法 是 委派 不 了 的 。 


如 有 果 这 样 的 情况 也 要 对 应 的 话 ， 就 会 稍微 戏 烦 一 些 。 实 际 上 ，delegate 

















库 除去 空 行 和 注释 以 外 还 长 达 114 行 。 比 图 4-7 要 复杂 得 多 。 


delegate 库 使 用 起 来 虽然 很 简单 ， 但 方法 委派 的 对 象 仅 限 于 既 有 的 对 
象 。 因 此 ， 在 最 开始 举 的 字 处 理 软件 例子 中 ， 要 想 达 到 延迟 图 像 生成 的 
目的 ， 直 接 使 用 delegate 是 不 行 的 。 我 们 可 以 像 图 4-8 那样 ， 从 
Delegator 派生 一 个 子 类 (ImageProxy ) 来 达到 这 一 目的 。 


require "delegate， 
class ImageProxy < Delagator 








# 传递 迟延 生成 所 需要 的 数据 
def initialize(data) 
@data = data 
@image = nil 
end 


# 下 面 的 方法 用 来 在 访问 时 调查 委派 对 象 





def getobj _ 
if @image == nil 
@image = LoadImage(@data) 
end 
@image 
end 
end 








图 4-8 ”Proxy 模式 延迟 对 象 生成 的 例子 


_ getobj_ _ 方法 是 Delegator 对 象 取得 方法 委派 对 象 的 方法 。 通 过 重 
写 这 个 方法 ，ImageProxy 会 在 实际 访问 图 像 对 象 的 时 候 才 来 生成 图 像 
对 象 。C++ 会 用 operator-> 或 者 operator* 来 代 蔡 ”getobj 





4.1.6 ”Iterator 模 式 


Iterator( 达 代 器 〉 模 式 提供 按 顺 序 访问 集合 对 象 中 各 元 素 的 方法 。 即 使 
不 知道 对 象 的 内 部 构造 ， 也 可 以 按 顺 序 访问 其 中 的 每 个 元 素 。 


Iterator Se 了 驶 像 
C++ 或 Java 一 样 。 我 们 称 这 个 循环 控制 对 象 为 Iterator， 也 称 为 游标 。 


图 4-9 是 Iterator 模式 的 类 构成 图 。 调 用 集合 对 象 〈 图 4-9 的 
Iteratable ) 的 CreateIterator() 方法 ， 就 会 返回 自己 对 应 的 








Iterator 对 象 。Iterator 对 象 会 记 住 现 在 所 指 问 的 Iteratable 元 
素 ， 调 用 Next() 方法 可 以 返回 集合 的 下 一 个 元 素 。 要 想 知 道 集合 中 是 
否 还 有 别 的 元 素 ， 可 以 调用 IsDone() 方法 来 确认 。 图 4-10 是 利用 
et 
空 佣 。 








| Iteratable 








CreateIterator () 


4 ISDone () 
»N CurrentItem() 


IteratableArray 








IteratableArray () 
Size() 


Get () 





图 4-9 ”Java 版 Iterator 模式 的 类 构成 图 





IteratableArray array = CreateArray() 
Iterator it = array.CreateIterator(); 
for (it.First(); !it.IsDone(); it.Next()){ 


System.out.println((String)it.CurrentItem()); 
} 








一 < 
| 


图 4-10 Java 版 外 部 和 迭代 器 的 用 


而 Ruby 是 用 块 来 对 集合 的 各 元 素 进行 循环 处 理 的 。 作 为 设计 模式 ， 使 
用 块 进行 循环 的 抽象 化 属于 Visitor (访问 者 ) 模式 。 但 因为 语言 本 身 就 
支持 这 样 的 循环 ， 所 以 也 就 不 需要 Iterator 这 样 的 对 象 了 。 这 实在 是 太 
基本 的 东西 了 ， 也 许 都 不 应 该 称 之 为 设计 模式 了 。 


4.1.7 ”外 部 与 内 部 ， 哪 一 个 更 好 


比较 外 部 从 代 器 和 内 部 迭代 器 ， 很 难说 哪 一 个 更 好 。 它 们 都 有 方便 的 一 
面 ， 也 都 有 不 方便 的 男 一 面 。 比 如 ， 在 没有 闭 包 的 语言 中 ， 要 使 用 内 部 
迭代 融 的 话 ， 就 不 能 用 块 来 实现 ， 而 是 要 传递 给 它 函 数 指针 ， 而 且 如 宁 
需要 传递 数据 的 话 ， 就 必须 以 参数 的 形式 从 外 部 明确 传递 过 来 ， 程 序 变 








大 


得 非常 麻烦 。 


请 看 图 4-11。 这 是 以 Ruby 和 C 为 例 编写 的 对 哈 硕 表 进行 循环 的 内 部 迭 
代 磺 。Ruby 的 内 部 迭代 需 是 用 块 来 实现 的 ， 代 码 看 起 来 非 党 自然。 但 
C 是 用 函数 指针 来 实现 的 ， 就 比较 难以 理解 。C 语言 没有 闭 包 ， 循 环 处 
理 所 需 要 的 数据 都 要 以 参数 的 形式 明确 地 从 外 面 传递 进去 。 说 实话 真是 
腑 燃 。 如 果 把 图 4-11 中 省 略 的 循环 处 理 的 实现 部 分 也 考虑 进来 的 话 ， 
两 者 的 兰 别 是 一 目 了 然 的 。 在 没有 闭 包 的 语言 中 ， 实 现 内 部 迭代 露 是 很 
不 现实 的 。 

# 用 Ruby 对 哈 希 表 进 行 循环 处 理 


h = Hash.new(...) 
h.each {|kyv| ...} 












































// 用 C 对 哈 希 表 进 行 循环 处 理 
static int 
each func(st data t key, st data t value, st data t arg) { 








return ST_CONTINUE; 


int main() { 
h = st init table(...) 
st_ foreach(h, each func, arg) 


} 








图 4-11 C 和 Ruby 的 内 部 迭代 器 


因此 ， 没 有 闭 包 的 C++ 或 者 Java 语言 通常 使 用 男 外 准备 的 外 部 迭代 器 
对 象 来 实现 循环 控制 。 用 Java 来 实现 Iterator 模式 的 程序 大 约 80 行 左 
右 。 图 4-12 仪 是 迭代 器 对 象 的 实现 部 分 的 代码 。 程 序 变 得 如 此 长 的 原 
因 主 要 是 要 解决 类 型 的 匹配 问题 。 在 Ruby 中 ， 对 Iterator 模式 的 类 构成 
而 言 ， 当 然 是 内 部 欠 代 器 比较 方便 ， 但 这 并 不 表示 不 能 使 用 外 部 迭代 
器 。 把 刚才 的 Java 版 程序 移植 成 Ruby， 程 序 还 不 到 50 行 。 图 4-13 是 
对 应 于 图 4-12 的 Ruby 程序 ，Ruby 外 部 迭代 器 的 使 用 方法 如 图 4-14 所 
二 











abstract class Iterator { 
abstract public void First(); 
abstract public void Next(); 
abstract public boolean IsDone(); 
abstract public Object CurrentItem(); 


} 


class ArrayIterator extends Iterator { 
private IteratableArray _array = null; 
private int current = -1; 
public ArrayIterator(IteratableArray array) { 
_array = array; 
_Current = 0) 
} 
public void First() { 
_Current = 0) 
} 
public void Next() { 
++_Current; 
} 
public boolean IsDone() { 
return _current >= _array.Sizel(); 


public Object CurrentItem() { 
return array.Get(_current); 
} 
} 








图 4-12 ”Java 迭代 器 对 象 的 例子 


class ArrayIterator 
def initialize(array) 
@array = array 
@current = 6 
end 
def first() 
@current = 6 
end 
def next() 
@current += 1 
end 
def is done() 
return @current >= Qarray.size() 
end 
def current item() 
return @array.get(@current) 
end 
end 








图 4-13 ”Ruby 外 部 迭代 器 的 例子 


it = array.create iterator(); 
it.first() 
until it.is done() 

puts it.current item() 


it.next() 
end 





图 4-14 Ruby 版 外 部 迭代 器 的 用 法 
与 Java 版 相 比 ， 你 觉得 怎么 样 ? 我 喜欢 更 清楚 易 懂 的 Ruby 版 。 
4.1.8 内 部 欠 代 喜 的 缺陷 


在 有 闭 包 的 语言 中 ， 入 部 迭代 需 具 有 容易 理解 、 容 易 实现 以 及 目 然 封 装 
等 许多 非常 可 取 的 性 质 。 

但 是 ， 内 部 迭代 露 并 不 是 完美 无 缺 的 。 内 部 欠 代 咽 的 缺陷 是 ， 由 于 不 能 
同时 进行 多 个 循环 ， 也 就 无 法 实现 按 顺 序 比较 两 个 集合 元 系 的 处 理 。 容 
易 使 用 的 东西 也 有 它 没 有 任何 使 用 价值 的 领域 。 


比如 ， 如 果 要 从 多 个 数组 中 把 一 个 个 元 素 取 出 来 进行 排列 的 话 ， 殊 不 能 
使 用 内 部 过 代 器 ， 而 要 写成 图 4-15 的 样子 。 
































# 内 部 迭代 器 无 法 实现 多 个 数组 要 素 的 并 列 处 理 





result = [] 

while i<3 
result.push(a[i]) 
result.push(b[i]) 
end 

result # =>[1,9,2,8,3,7] 


# 用 外 部 迭代 器 就 很 简单 

ia = a.create iterator(); 

ib = b.create iterator(); 

ia.first(); ib.first() 

until ia.is done() or ib.is done() 
result .push(ia.next) 


result.push(ib .next) 
end 


图 4-15 ”内 部 迭代 右 的 缺陷 

但 是 Ruby 也 在 改善 之 中 。 在 1.8.7 版 本 以 后 ， 几 乎 所 有 对 块 进行 循环 的 
方法 ， 在 没有 块 的 时 候 ， 会 返回 像 外 部 迭代 器 一 样 动作 的 Enumerator 
ee 不 用 再 特意 准备 外 部 友 代 器 ， 就 可 以 把 它 作 为 外 部 迭代 器 来 


图 4-16 使 用 Enumerator 实现 了 图 4-15 同样 的 处 理 。 请 注意 ， 它 比 使 
用 外 部 迭代 器 (图 4-15 的 后 半 部 分 ) 的 程序 还 要 简单。 


# 继续 图 4-15 的 程序 











result.push(ia.next) 
result.push(ib .next) 
end# 



































图 4-16 ”使 用 Enumerator 进行 外 部 迭代 


实际 上 Enumerator 对 所 有 元 素 循环 究 了 的 时 候 会 抛 出 
StopIteration 异常 。1oop 方法 收 到 该 异常 后 停止 循环 ， 而 不 需要 像 
外 部 迭代 喜 那 样 每 次 去 问 “ 还 有 别 的 元 素 吗 ? ”， 所 以 使 用 Enumerator 
的 程序 变 得 更 简单 。 


4.1.9 ”外 部 迭代 器 的 缺陷 


那么 ， 外 部 迭代 器 是 不 是 束 没 有 问题 了 呢 ? 外 部 途 代 志 的 缺陷 在 于 迭代 
器 《游标 ) 对 象 需要 引用 集合 对 象 的 内 部 信息 。 为 了 按 顺 序 访问 集合 对 
象 的 各 个 元 素 ， 友 代 器 对 象 需要 访问 集合 的 内 部 构造 。 这 就 破坏 了 隐 菩 
集合 内 部 构造 的 封装 性 原则 。 因 为 集合 类 与 欠 代 需 类 非常 紧密 地 关联 在 
一 起 ， 就 需要 特别 注意 它们 内 部 构造 的 更 新 。 








比如 ，C++ 使 用 friend 修饰 词 来 允许 迭代 器 访问 集合 的 内 部 构造 。 这 
就 破坏 了 对 象 的 封装 性 原则 。 于 是 C++ 只 好 使 用 friend 来 实现 。 


4.2 ”设计 模式 (2) 


前 一 市 学 习 了 “设计 模式 是 什么 "。 我 们 把 设计 上 反复 出 现 的 模式 称 为 设 
计 模 式 。 节 简单 的 例子 就 是 for 循环 。《 设 计 模 式 》 一 书 把 设计 模式 进 
行 了 明确 分 类 ， 极 具 参 考 价值 。 


上 节 讲 述 过 Singleton、Proxy 及 Iterator 各 模式 ， 本 节 再 来 考察 几 个 别 的 
设计 模式 。 下 面 按 顺序 来 考察 Prototype、Template Method 和 Observer 
这 三 个 设计 模式 。 


4.2.1 模式 与 动态 语言 的 关系 


《设计 模式 》 一 书 介 绍 了 23 个 设计 模式 。 这 些 设计 模式 可 以 分 为 3 大 
类 : 有 关 生 成 的 模式 (5 个 ) ， 有 关 构 造 的 模式 〈7 个 ) 以 及 有 关 行 为 
的 模式 《11 个 ) 。 如 果 把 上 节 中 三 个 模式 进行 这 种 分 类 的 话 ， 那 么 
Singleton 模式 属于 有 关 生 成 的 模式 ，Proxy 模式 属于 有 关 构 造 的 模式 ， 
而 Iterator 模式 则 属于 有 关 行 为 的 模式 。 


设计 模式 是 从 【〔 面 同 对 象 》 编 程 中 经 常 出现 的 程序 构造 中 抽象 出 来 的 ， 
所 以 它 与 语言 无 天 ， 可 以 适用 于 任何 编程 语言 。《 设 计 模 式 》 的 例题 主 
要 是 用 C++ 写成 的 ， 其 中 也 有 用 Smalltalk 写 的 例题 ， 但 同样 的 原则 对 
Java 也 完全 适用 。 当 然 对 Ruby 也 是 完全 一 样 的 。 


但 是 ，Ruby 或 Smalltalk 这 样 的 动态 语言 ， 与 C++ 或 Java 这 样 的 静态 语 
言 相 比 ， 即 使 是 同样 的 设计 模式 ， 使 用 方法 也 会 略 有 不 同 。 这 次 就 痢 重 
从 这 一 点 来 考察 几 个 设计 模式 。 


4.2.2 ”重复 使 用 既 存 对 象 的 Prototype 模 式 


引用 《设计 模式 》 一 书 中 的 解释 ，Prototype〈 原 型 ) 模式 “明确 一 个 实 
例 作为 要 生成 对 象 的 种 类 原型 ， 通 过 复制 该 实例 来 生成 新 的 对 象 ”。 


《设计 模式 》 中 这 一 模式 的 例题 使 用 的 是 迷宫 生成 类 MazeFactory。 这 

一 例子 通过 拥有 生成 墙 、 房 间 、 门 等 对 象 的 原型 ， 不 需要 派生 就 可 以 生 
成 各 种 各 样 的 迷宫 。 但 是 ， 说 实话 ， 这 个 例题 并 没有 让 人 真正 感觉 到 原 
型 的 宝贵 之 处 。 












































实际 上 ，Prototype 模式 本 来 并 不 太 适 用 于 C++ 这 样 的 静态 语言 。 在 动态 
语言 中 ，Prototype 模式 才能 够 真正 发 挥 它 的 巨大 威力 。 


通常 在 面 癌 对象 的 语言 中 ， 首 移 准 备 好 所 谓 的 类 ， 也 惑 是 对 象 的 骏 形 ， 
然后 从 类 来 生成 实际 的 对 象 ， 这 些 做 法 都 是 理所当然 的 。 在 面向 对 象 编 
程 中 ， 类 是 最 为 基本 的 存在 。 


但 是 ， 类 真 的 是 必需 的 吗 ?Smalltalk 的 “ 亚 种 ”Self 语言 的 设计 人 员 就 认 
为 类 并 不 是 必需 的 。Self 中 不 存在 所 谓 的 类 ， 基 本 操作 并 不 是 从 类 来 生 
成 对 象 ， 而 是 复制 对 象 。 


基本 思想 就 是 如 此 。 


在 需要 新 种 类 对 象 的 时 候 ， 首 先 复制 一 个 既 存 的 对 象 ， 给 复制 的 对 象 直 
接 增 加 方法 或 实例 变量 等 功能 ， 生 成 最 初 的 第 一 个 新 种 类 对 象 。 如 果 该 
对 象 需要 不 止 一 个 的 话 ， 那 就 从 第 一 个 外 型 来 复制 ， 需 要 几 个 束 复 制 几 
个 。 最 初 一 个 虽然 是 锥 形 ， 但 它 并 不 是 所 请 类 这 种 人 为 生成 的 特别 对 
象 ， 而 是 一 个 普通 的 对 象 ， 只 不 过 偶尔 被 用 来 复制 而 已 。 


雏形 这 个 词 对 应 的 英语 是 Prototype。 像 这 样 的 不 用 类 ， 而 是 用 原型 模式 
和 复制 方法 的 编程 语言 称 为 原型 模式 的 编程 语言 。 实 际 上 ，Prototype 模 
式 不 单 是 一 种 设计 模式 ， 也 许 称 为 一 种 编程 范例 才 更 为 合适 。 


相对 于 类 模式 的 编程 ， 原 型 模式 的 编程 的 构成 元 素 比 较 少 ， 具 有 简单 实 
现 面 回 对 象 功能 设计 的 倾 癌 。 因 此 ， 最 近 有 越 来 越 多 的 规格 较 小 的 编程 
语言 采用 这 种 模式 。 比 如 ， 大 多 数 Web 浏览 器 中 区 入 的 JavaScript 的 面 
向 对 象 功能 就 是 原型 模式 的 。 最 近 ， 受 到 一 部 分 人 关注 的 Io 语言 ! 也 是 
原型 模式 的 。 


1 关于 原型 模式 的 面向 对 象 编程 语言 To， 请 参阅 http:/www.iolanguage.com/ 。 关 于 语言 的 基 
础 ， 请 参阅 笔者 在 Rubyist Magazine 上 的 投稿 (http://jp.rubyist.net/magazine/?0010-Legwork ) 。 

































































4.2.3” 杀 喘 体验 Io 语 言 


只 讲理 论 还 是 难以 得 到 具体 的 印象 ， 那 就 让 我 们 边 看 实际 程序 ， 边 来 杀 
吴 体验 原型 模式 的 编程 吧 。 虽 然 用 Ruby 也 可 以 进行 原型 模式 的 编程 ， 
但 这 次 我 们 使 用 更 为 彻底 的 Io 语言 (参见 图 4-17) 。 


// 复制 Object 1 





Dog := Object clone 








// 把 sit 方法 教 给 雏形 Dog 2 
Dog sit := method("I'm sitting.\n" print) 

















// Dog 是 狗 ， 所 以 会 坐 3 
Dog sit 


// 从 雏形 Dog 生成 新 的 myDog 4 
myDog := Dog clone 








图 4-17 使 用 Io 语言 的 原型 模式 的 编程 示例 

















让 我 们 来 仔细 看 看 图 4-17 吧 。 这 是 描述 狗 的 简单 例子 。 虽 然 没 有 实用 
性 ， 但 从 中 应 该 能 体会 到 原型 模式 的 气氛 。 


1 的 部 分 生成 新 的 对 象 ， 赋 值 给 名 为 Dog 的 变量 。 请 注意 ， 这 里 出 现 的 
Object 和 Dog 都 不 是 类 。 在 Io 语言 中 ，0bject 只 是 有 代表 性 的 对 
象 ， 除 最 基本 的 以 外 其 他 什么 都 不 知道 。 以 它 为 基础 可 以 生成 各 种 锥 
形 。 这 里 调用 clone 方法 来 复制 一 个 基础 对 象 ， 并 给 它 起 个 名 字 ， 叫 
做 Dog 。 刚 刚 复制 出 来 的 Dog 对 象 跟 0bject 是 一 样 的 ， 没 有 狗 的 任何 


功能 。 


只 是 0bject 的 话 ， 什 么 功能 都 没有 ， 是 没有 任何 使 用 价值 的 ， 让 我 们 
来 教 给 它 狗 的 功能 吧 。2 部 分 中 先是 给 它 定 一 个 “ 坐 下 ”的 sit 方法 。 把 
一 个 method 对 象 赋 值 给 Dog 对 象 的 sit 属性 ， 束 给 Dog 对 象 退 加 了 
= 














调用 sit 方法 就 等 于 调用 "I'm sitting\.n"print ， 显示 工 'm 
sitting .。 这 一 部 分 相当 于 调用 字符 串 对 象 的 print 方法 ， 从 中 可 以 
体会 到 彻底 的 面 问 对象 编 程 。 这 个 例子 中 仅仅 增加 了 一 个 sit 方法 ， 实 
际 上 根据 需要 想 退 加 几 个 方法 就 可 以 退 加 几 个 。 


你 看 ，Dog 对 象 就 是 这 样 实 现 的 。 再 强调 一 遍 ， 其 中 作为 纵 形 的 是 狗 对 
象 ， 而 不 是 类 。 因 此 ，3 部 分 中 对 Dog 对 象 调用 sit 方法 的 时 候 ， 结 果 
与 其 他 狗 一 样 显示 出 I'm sitting. 。 


在 像 Ruby 这 样 类 模式 的 语言 中 ， 作 为 对 象 锥 形 的 类 拥有 与 对 象 完全 不 
同 的 方法 (类 的 方法 ) ， 而 与 之 相对 的 是 ， 原 型 模式 的 语言 中 根本 就 没 














有 类 的 存在 ， 纵 形 与 基于 它 生成 的 对 象 是 完全 一 样 的 。 


4 部 分 使 用 clone 方法 基于 秩 形 生成 新 的 狗 对 象 。 这 里 请 注意 ， 不 管 是 
生成 新 的 和 雏形， 还 是 从 秩 形 生成 新 的 对 象 ， 都 是 仅仅 使 用 clone 方法 
实现 的 。 在 类 模式 的 语言 中 ， 用 子 类 化 和 实例 化 这 两 个 不 同 的 概念 实现 
“ 这 里 仅仅 用 clone 这 样 一 个 简单 的 程序 就 实现 了 ， 真 让 人 感 
2 。 


当然 ， 简 单 并 不 都 是 一 切 ， 原 型 模式 有 原型 模式 的 优点 ， 类 模式 也 有 类 
模式 的 优点 ， 因 为 原型 模式 的 语言 还 不 太 广 为 人 知 ， 这 里 特意 选 它 作为 
例子 ， 惑 是 为 了 让 大 家 体会 一 下 它 的 单纯 。 








4.2.4 Ruby 中 的 原型 


基本 上 讲 Ruby 是 类 模式 的 语言 ， 但 也 拥有 支持 原型 模式 编程 的 功能 ， 
具体 来 说 有 以 下 3 种 功能 。 


1. 复制 对 象 的 clone 方法 。 
2. 给 个 别 对 象 增 加 方法 的 特异 方法 功能 。 
3. 给 个 别 对 象 增加 一 组 功能 的 extend 方法 。 


图 4-18 是 用 Ruby 重 写 的 图 4-17 的 程序 。 


// 生成 锥 形 对 象 
object = Object.new 
// 复制 object 
dog = object.clone 
// 给 雏形 dog 增加 sit 方法 
def dog.sit 
print "I'm sitting\n" 
end 


























// dog 是 狗 ， 会 sit 
dog.sit 


// 从 色 形 dog 生成 新 的 myDog 
myDog = dog.clone 











图 4-18 ”Ruby 的 原型 模式 编程 ， 这 是 用 Ruby 重 写 的 图 4-17 的 内 容 


因为 Ruby 中 没有 像 Io 语言 中 0bject 这 样 一 个 对 象 原型 ， 所 以 作为 准 
备 ， 程 序 一 开始 (object = 0bject. new ) 先是 生成 一 个 0bject 类 
的 实例 。 在 这 以 后 ， 除 了 语法 上 细微 的 区 别 之 外 ， 差 不 多 是 把 Io 程序 
照搬 过 来 的 。 


从 中 我 们 可 以 看 到 动态 语言 中 Prototype 模式 这 种 令 人 吃惊 的 力量 。 这 
在 必须 明确 对 象 类 型 的 静态 语言 中 是 实现 不 了 的 。 因 为 在 静态 语言 中 没 
有 原型 编程 ， 是 不 可 能 给 复制 的 对 象 增加 新 方法 的 。 

4.2.5 编写 抽象 算法 的 Template Method 模 式 

接着 来 看 Template Method (模板 方法 ) 吧 。 还 是 引用 《设计 模式 》 中 
的 解释 ，Template Method 模式 是 : “在 父 类 的 一 个 方法 中 定义 算法 的 框 
架 ， 其 中 几 个 步 又 的 具体 内 容 则 留 给 子 类 来 实现 。 使 用 Template 
Method 模式 ， 可 以 在 不 改变 算法 构造 的 前 提 下 ， 在 子 类 中 定义 算法 的 
= 上 冰 巡 


这 实际 上 是 面 向 对 象 编程 中 使 用 继承 的 一 般 技巧 。 


作为 例子 ， 让 我 们 来 看 一 下 Ruby 的 p 方 法 吧 。p 方法 是 程序 调试 中 用 
来 显示 对 象 内 容 的 方法 。 显 示 调 试 信息 的 算法 主要 是 : 


1. 把 对 象 的 调试 用 输出 信息 转换 成 字符 串 ; 

2. 调用 puts 方法 输出 。 

这 就 是 调试 输出 的 算法 ， 因 为 实在 是 太 简 单 了 ， 称 之 为 算法 简直 有 些 过 
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但 实际 上 令 人 意外 的 是 ， 为 了 输出 调试 信息 ， 分 别 为 各 种 对 象 定义 调试 
用 输出 字符 串 是 非常 困难 的 。 针 对 各 种 不 同 的 类 都 要 分 别 进行 不 同 处 
0 
-1 


这 时 候 使 用 Template Method 模式 ， 问 题 就 变 得 简单 了 。 使 用 Template 
Method 模式 ， 输 出 调试 信息 的 p 方法 会 变 成 如 下 的 代码 ， 简 单 得 出 乎 





def p(obj) 
puts obj.inspect 


end 








这 个 简单 的 方法 只 是 把 算法 的 1 和 2 原封 不 动 地 换 成 了 程序 语言 。 在 这 
个 定义 中 ， 各 种 对 象 中 准备 调试 信息 的 具体 处 理 是 由 该 对 象 的 inspect 
方法 来 实现 的 。 在 定义 新 类 的 时 候 ， 只 要 给 它 定 义 了 合适 的 inspect 
方法 ， 束 可 以 在 任何 时 候 使 用 p 方法 来 输出 适当 的 调试 信息 。 


在 父 类 中 定义 抽象 化 的 算法 ， 调 用 隐藏 了 实现 细节 的 方法 ， 然 后 在 子 类 
中 实现 具体 的 细节 ， 这 了 驶 是 Template Method 模式 。 


4.2.6 ”用 Ruby 来 尝试 Template Method 








Ruby 的 类 库 中 最 大 限度 灵活 运用 Template Method 模式 的 部 分 ， 应 该 说 
是 Enumerable 模块 和 Comparable 模块 了 。 


Enumerable 模块 中 实现 循环 的 each 方法 采用 了 Template Method 模 
式 。 表 4-2 是 Enumerable 模块 的 方法 一 览 。 


表 4-2 Enumerable 提供 的 方法 


Ks 
X 








all? 是 否 所 有 元 素 都 为 真 
EE 
六 
| 
反 
} 









































collect{|x|...} 对 各 元 素 进行 块 中 的 计算 ， 返 回 结果 的 数组 
detect{|x|...} 返回 使 块 为 真 的 第 1 个 元 素 
each with_index{ |x,i|...} 对 各 元 素 和 下 标 进行 块 中 的 计算 

...} 











rr 


跨 为 真 的 第 1 个 元 素 









































[CEI 


grep(pattern) 返回 匹配 检索 模式 的 所 有 元 素 的 数组 
grep(pattern){|x|...} 对 匹配 检索 模式 的 所 有 元 素 进行 块 中 的 计算 
inject{|x,y|...} 返回 对 各 元 素 进 行 块 中 的 计算 的 结果 

inject(init){ |x,y|...} 对 各 元 素 进行 块 中 的 计算 的 结果 

map{ |x|...} 对 各 元 素 进行 块 ， 返回 结果 的 数组 

ax 
max{|a,b|...} 使 用 块 中 的 比较 方法 ， 返 回 最 大 的 元 素 


对 各 元 素 进行 块 中 的 变换 ， 返 回 结果 最 大 的 元 素 (Ruby 
1.9 ) 


min 返回 最 小 的 元 于 
min{|a,b|...} 使 用 块 中 的 比较 方法 ， 返 回 最 小 的 元 素 
对 各 元 素 进行 块 中 的 变换 ， 返 回 结果 最 小 的 元 素 (Ruby 













































































max_by{ |x|...} 




















min_by{|x|...} 1.9) 


partition{|x|...} 把 使 块 为 真 的 元 素 和 使 块 为 假 的 元 素 分 离开 

reject{|x|...} 返回 使 块 为 假 的 元 素 的 数 纪 

select{|x|...} 使 块 为 真 的 元 素 的 数 引 

sort{|a,b|...} 使 用 块 中 的 比较 方法 ， 对 元 素 排 序 

sort_by{ |x|...} 对 各 元 素 进行 块 中 的 变换 ， 按 照 变换 结果 对 元 素 进行 排序 
返回 元 素 的 数组 

zip(a,...) 返回 各 集合 串 接 后 的 数组 

zip(a,...){larr|...} 对 集合 进行 串 接 ， 然 后 进行 块 中 的 计算 

































































这 些 方 法 的 定义 都 是 仅仅 依赖 于 each 方法 。 因 此 ， 在 用 户 定义 的 类 
中 ， 只 要 定义 了 each 方法， 一旦 把 Enumerable 模块 包含 (include 
) 进来 ， 就 都 可 以 使 用 表 中 的 32 个 方法 了 。 


Enumerable 模块 实际 上 是 用 C 编写 的 ， 用 Rudy 也 可 以 简单 地 定义 同 
样 的 模块 ， 那 惑 让 我 们 边 看 Ruby 的 定义 ， 边 来 考虑 一 下 如 何 更 好 地 使 
用 Template Method 模式 < 。 





























2 在 Ruby 早期 的 版 本 里 ，Enumerable 模块 是 用 Ruby 定义 的 。 后 来 考虑 列 性 能 及 库 的 使 用 方便 
性 ， 又 用 C 重新 编写 了 。 























其 中 一 个 实现 起 来 最 为 简单 的 方法 ， 应 该 是 收集 所 有 元 素 的 entries 
方法 了 。entries 方法 的 实现 代码 如 图 4-19 所 示 。 看 一 下 图 4-19 束 能 
明白 ， 处 理 内 容 是 很 简单 的 。 


def entries 
result = [] 
self.each {|elem| 


result << elem 


} 
return result 
end 








图 4-19 用 Ruby 实现 的 entries 方法 
1. 生成 数组 。 

2. 用 each 取出 每 个 元 素 。 

3. 把 元 素 退 加 到 数组 里 。 

4. 最 后 返回 数组 。 


从 中 可 以 看 出 ， 这 个 方法 只 是 定 义 了 目 己 处 理 的 框架 ， 对 应 于 每 个 对 象 
的 处 理 则 由 each 方法 来 提供 。 


像 Template Method 模式 的 这 种 使 用 方法 ， 在 Comparable 模块 中 也 是 
一 样 的 。 


Comparable 模块 利用 基本 的 比较 大 小 方法 <=>， 提 供 各 种 比较 演算 。 
<=> 方 法 把 自身 与 参数 相 比 较 ， 如 果 上 自 号 较 大 ， 则 返回 正 整数 ， 知 二 者 
相等 ， 则 返回 0; 知 自 身 较 小 ， 则 返回 负 整 数 。 以 这 个 方法 为 基 

础 ，Comparable 模块 提供 了 人 ==、>、>=、<、<= 以 及 between? 共 6 
种 比较 运算 。 


作为 Comparable 提供 的 比较 运算 的 代表 ， 我 们 来 看 一 看 > 方法 的 实现 
吧 (参见 图 4-20) 。 实 际 上 > 方法 还 要 加 上 错误 处 理 ， 但 基本 处 理 如 网 
4-20 所 示 。 


def >(other) 








cmp = self <=> other 
if cmp > 6 
return true 
else 
return false 
end 
end 














图 4-20 用 Ruby 实现 的 > 方法 


像 这 样 使 用 Template 模式 ， 可 以 不 涉及 各 种 数据 结构 细节 ， 而 只 在 抽 





象 的 水 平 上 编写 算法 的 程序 。 也 就 是 说 ， 算 法 是 在 抽象 水 平 很 高 的 状态 
下 表述 的 ， 同 样 的 代码 能 够 适用 于 各 种 各 样 的 情况 。 


这 样 避 免 了 代码 的 重复 ， 从 DRY 原则 的 观点 来 看 3 ， 也 是 很 优秀 的 。 


3 所 谓 DRY (Don't Repeat Yourself) 原则 ， 是 指 彻底 避免 重复 。 在 几乎 所 有 和 领域， 这 都 是 一 个 
提高 软件 开发 效率 和 可 靠 性 的 有 效 原 则 。 和 希望 大 家 时 刻 牢 记 在 心 。 




















4.2.7 ”动态 语言 与 Template Method 模 式 


一 般 Template Method 模式 与 继承 往往 是 成 对 讨论 的 ， 但 像 
Enumberable 那样 ， 只 需要 包含 〈include) 进来 ， 不 管 继承 关系 如 
何 ， 即 可 以 癌 任 何 类 里 妃 加 功能 ， 这 一 点 很 有 魅力 。 本 来 ，Ruby 的 
include 就 是 一 种 受 限 的 多 重 继 承 ， 这 没有 什么 不 可 思议 的 。 


Template Method 模式 的 这 种 优秀 性 质 与 语言 是 不 是 静态 没有 关系 。 像 
Java 那 种 含有 静态 类 型 ， 而 且 不 允许 多 重 继承 的 语言 ， 必 须 强制 性 地 拥 
有 继承 关系 。 所 以 ， 像 Enumerable 这 样 在 各 种 各 样 的 类 中 都 能 利用 的 
算法 集 ， 使 用 Template Method 模式 很 难 实现 (interface 与 委托 的 组 合 
也 不 是 不 可 能 ) ， 但 这 不 是 静态 语言 的 问题 。 


但 是 ， 像 Io 与 Ruby 这 种 也 善于 用 原型 模式 编程 的 语言 ， 往 前 进化 了 一 
步 ， 可 以 往 特定 对 象 里 追加 算法 集 。 图 4-21 表示 往 特定 对 象 里 追加 
Enumerable 功能 ， 虽 然 这 个 例子 有 点 牵强 。 























# 生成 一 个 对 象 
dice = Object.new 
# 定义 each 方法 


def dice.each 


# 首先 扼 16 回 般 子 
16 .times do 
yield rand(6)+1 








# 往 dice 里 追加 Enumerable 的 功能 
dice.extend(Enumerable) 





# 用 继承 的 reject 方法 排除 3 以 下 的 数 


p dice.reject{|x| x<=3} 























图 4-21 人 往 特定 对 象 里 追加 Enumerable 功能 的 示例 





尽管 哪儿 也 没 定义 类 ， 但 使 用 extend ， 山 子 对 象 中 就 能 够 利用 
Enumerable 模块 的 功能 了 。 用 extend 及 特异 方法 往 特 定 对 象 里 追加 
功能 的 做 法 ， 也 能 够 用 来 实现 Singleton 模式 。 


4.2.8 ”避免 高 度 依 赖 性 的 Observer 模式 


Observer (观察 者 ) 模式 是 当 某 个 对 象 的 状态 发 生变 化 时 ， 依 存 于 该 状 
态 的 全 部 对 象 都 自动 得 到 通知 ， 而 且 为 了 让 它们 都 得 到 更 新 ， 定 义 了 对 
象 间 一 对 多 的 依存 关系 。 


这 是 控制 类 与 类 之 间 依 存 关 系 的 一 种 模式 。 举 一 个 例子 ， 想 想 微 软 的 
Excel 软件 吧 。 以 表 中 的 数据 为 基础 表示 图 形 的 时 候 ， 编 辑 了 表 中 的 数 
据 之 后 ， 目 然 希 望 图 形 的 内 容 也 跟着 变化 。 或 者 ， 从 同一 组 数据 ， 也 经 
常 想 同 时 看 到 直方 图 和 怖 形 图 等 多 种 图 形 。 


能 够 实现 这 一 要 求 的 最 简单 的 方法 ， 应 该 是 在 表 编辑 功能 里 附加 更 新 图 
形 显示 的 处 理 。 但 是 这 样 做 的 话 ， 附 加 的 是 与 表 编 辑 在 本 质 上 不 同 的 处 
理 手段 ， 使 事情 复杂 化 ， 更 重要 的 是 ， 当 想 要 再 利用 表 编 辑 功 能 时 ， 还 
要 罕 连 到 不 一 定 必要 的 图 形 显 示 功 能 。 表 编辑 功能 与 图 形 显 示 功 能 之 间 
的 这 种 关系 称 为 高 度 依赖 性 。 

一 般 地 次 ， 高 度 依赖 性 不 好 。 从 本 质 上 讲 ， 软 件 是 个 复杂 的 东西 ， 为 了 
控制 复杂 性 ， 有 效 的 方法 是 将 整体 分 割 成 几 个 相互 独立 的 部 分 进行 开 
发 。 但 是 ， 有 了 高 度 依赖 性 ， 束 不 能 将 组 成 程序 的 “零件 ”〈 类 以 及 子 程 
































序 ) 进行 分 解 ， 一 个 一 个 的 “零件 ”会 很 大 ， 结 末 复 杂 性 就 很 难 控制 。 


Observer 模式 是 一 种 避免 这 种 高 度 依 赖 性 的 手段 。 构 成 观察 者 模式 的 有 
两 个 对 象 ， 一 个 称 为 Observer《〈 观 察 者 ) ， 接 受 变 更 通知 ; 另 一 个 称 为 
Subject〈 对 象 ) 或 Observable (被 观察 者 ) ， 发 出 变更 通知 。 


说 说 刚才 的 表 编 辑 的 例子 ， 表 数据 就 是 Subject， 图 形 就 是 Observer。 从 
观察 者 与 被 观察 者 这 两 个 名 字 上 ， 被 观察 者 让 人 得 到 被 动 的 印象 ， 在 实 
际 处 理 中 ， 被 观察 者 会 发 出 通知 “我 已 经 变化 了 哦 ”。 


4.2.9 ”Observable 模块 


Ruby 中 为 实现 Observer 模式 提供 了 名 为 observer 的 库 。observer 库 提 
供 Observer 模块 。Observer 模块 的 API 请 参见 表 4-3。 实 际 的 库 使 用 如 
图 4-22 所 示 。 


表 4-3” Observable 模块 的 API〈 应 用 编程 接口 ) 


delete observers 删除 观察 者 
changed(state = true) 
更 


新 标志 
































设 
changed? 检 


通知 更 新 。 如 果 更 新 标志 为 真 ， 调 用 观察 者 带 参 数 args 
的 方法 


























notify observers(*#arg) 





require "observer" 














# 更 新 通知 者 (Observable) 
# 这 个 类 每 秒 发 送 1 次 更 新 通知 
class Tick 

















include Observable 
def tick 
loop do 
now = Time .now 
changed 


notify _ observers(now.hour，now.min，now.sec) 
sleep 1.6 - Time.now.usec / 16660666 .0 
end 
end 
end 


# 观察 者 (Observer ) 
# 依照 通知 ， 表 示 现 在 时 刻 的 类 【文字 版 ) 
class TextClock 

















def update(h,m,s) 
printf "Ne[8DX%62d:%62d:%62d"，h，m，s 
STDOUT.flush 
end 
end 


tick = Tick.new 
tick.add observer(TextClock.new) 
tick.tick 











图 4-22 ”使 用 observer 库 的 Ruby 程序 ， 观 察 者 与 被 观察 者 不 相互 依存 


解释 一 下 图 4-22 中 的 程序 。 首 先是 require observer 库 。 利 用 库 的 
时 候 ， 这 是 必须 写 的 。 


然后 是 定义 被 观察 者 类 Tick 。 注 释 中 也 写 道 ， 该 类 每 秒 发 送 1 次 更 新 
通知 。 它 是 相当 于 时 钟 的 类 。Tick 的 发 音 ， 好 像 是 时 钟 的 滴答 滴答 
声 。Tick 是 被 观察 者 ， 所 以 要 将 Observable 模块 包含 进来 。 仅 一 名 
话 束 能 让 任意 类 成 为 被 观察 者 ， 这 正 是 Ruby 的 威力 。 


tick 方法 是 主 循环 。 有 了 这 个 处 理 ， 每 阳 1 秒 ， 循 环 就 发 出 更 新 通 
知 。 虽 然 仅仅 睡眠 1 秒 ， 但 为 了 保证 能 在 整 秒 发 出 更 新 通知 ， 便 以 微 秒 
为 单位 进行 了 补正 (sleep 1.6 - Time... 的 部 分 ) 。 


实际 的 更 新 通知 只 是 调用 changed 方法 设置 更 新 标志 ， 然 后 用 
notify _ observers 方法 通知 观察 者 。 它 们 都 写 在 loop 〈 循 环 ) 内。 


虽然 在 这 种 每 次 肯定 都 要 定期 发 出 更 新 通知 的 情况 ， 把 changed 与 

notify_observers 分 离开 来 没有 意义 ， 但 是 考虑 到 会 有 频繁 变化 、 
次 更 新 处 理 的 花费 都 比较 大 的 情况 ， 还 是 将 二 者 分 离开 了 。 比 如 刚才 的 
表 编 辑 的 例子 中 ， 与 其 在 每 次 细微 的 变化 后 都 要 更 新 图 形 ， 不 如 在 键盘 




















输入 告 一 段落 时 再 集中 更 新 图 形 ， 应 该 更 有 效率 。 


后 半 部 分 的 TextClock 类 是 观察 者 类 。 依 照 Tick 发 送 的 通知 ， 在 控制 
画面 上 显示 现在 时 刻 。TextClock 类 不 是 特定 类 的 子 类 或 者 别 的 什么 ， 
只 是 拥有 被 更 新 通知 调用 的 update 方法 。update 方法 接受 Tick 类 
notify_observers 方法 传 过 来 的 时 、 分 、 秒 三 个 整数 参数 。 


实际 显示 用 了 ANSI 的 转 义 字符 (printf 以 下 的 部 分 ) 。 用 ESC[8D] 
将 光标 移 到 行 首 ， 后 面 显示 时 刻 。 为 避免 缓冲 问题 ， 每 次 都 调用 
STDOUT .flLush 。 


定义 了 Tick (被 观察 者 ) 与 TextClock (观察 者 ) 两 个 类 之 后 就 简单 
了 。 先 生成 Tick 类 的 对 象 ( 图 4-22 倒数 第 3 行 的 部 分 ) ， 然 后 使 之 与 
TextClock 类 相关 联 ， 最 后 启动 Tick 类 的 主 循环 (图 4-22 的 末尾 部 
分 ) ， 就 这么 多 。 


执行 图 4-22 的 程序 ， 控 制 画 面 上 束 会 显示 出 一 个 数字 时 钟 。 因 为 是 无 
限 循 环 ， 想 要 停止 时 ， 请 按 下 Ctrl+C。 


这 次 只 做 了 一 个 观察 Tick 类 的 对 象 TextClock ， 如 果 愿 间 ， 可 以 添加 
任意 多 个 观察 者 。 比 如 ， 对 同一 个 Tick ， 不 光 能 添加 文字 时 钟 ， 还 可 
以 添加 图 形 时 钟 。 


这 个 程序 最 应 该 注意 的 一 点 是 ，Tick 类 与 TextClock 之 间 的 关联 ， 只 
用 一 行 〈 图 4-22 倒数 第 2 行 ) 束 完 成 了 。Tick 类 与 TextClock 类 之 
间 ， 只 有 “更 新 以 后 ， 调 用 update 方法 ”以 及 “在 update 方法 中 ， 传 递 
时 、 分 、 秒 ”这 种 简单 的 约定 ， 不 存在 别 的 关系 。 只 要 是 遵守 相同 约定 
的 类 ， 都 可 以 简单 地 进行 交换 。 


可 以 看 出 ， 使 用 Observer 模式 ， 显 然 能 够 降低 相互 依赖 性 。 既 可 以 将 观 
罕 者 类 做 成 零 部 件 ， 又 可 以 根据 需要 更 换 科 观察 者 《比如 测试 用 的 假 程 
序 ) 。 这 个 性 质 对 于 提高 软件 的 开发 效率 和 训 试 效率 ， 都 是 很 有 用 的 。 























4.2.10 “Observer 模式 与 动态 语言 


动态 语言 的 性 质 在 Observer 模式 中 也 很 有 用 。 由 于 Ruby 的 动态 性 质 ， 
observer 库 具 有 以 下 几 方 面 的 灵活 性 。 





1. 观察 者 类 不 必 是 特定 类 的 子 类 。 

2. 观察 者 类 不 必 实 现 特定 的 接口 (本 来 在 Ruby 中 也 没有 接口 ) 。 

3. 观察 者 类 的 更 新 方法 名 可 以 自由 决定 《Ruby 1.9 的 功能 

4. 观察 者 类 更 新 方法 的 参数 可 以 自由 决定 。 

5. 被 观察 者 类 不 必 是 特定 类 的 子 类 。 

6. 对 被 观察 者 类 的 要 求 ， 只 是 将 Observable 模块 包含 进来 。 

我 想 Java 那 种 静态 语言 也 具有 与 Ruby 的 observer 库 相 同 功能 的 库 。 事 
实 上 ， 有 几 种 DI 容器 (Dependency Injection Container) 框架 ， 也 具有 
与 observer 库 相 类 似 的 处 理 。 


但 是 ， 如 果 编 码 太 莹 从 了 ， 或 者 需要 用 XML 文件 代 蔡 Java 来 描述 类 之 
间 关 联 的话 ， 我 认为 束 没 有 Ruby 这 么 好 用 了 。 


* 米 米 

















本 节 从 与 动态 语言 相关 联 的 观点 解释 了 设计 模式 中 的 Pop 模式 、 
Template Method 模式 和 Observer 模式 。 作 为 对 设计 模式 的 总 结 ， 下 面 
看 一 看 设计 模式 与 软件 开放 一 封闭 原则 (Open-Close principle) 。 





4.3 设计 模式 〈3) 


很 久 以 前 ， 技 术 人 员 将 计算 机 的 机 械 部 分 称 为 硬件 ， 这 是 计算 机 所 有 实 
体 部 件 和 设备 的 统称 。 与 此 相对 应 ， 没 有 实体 的 程序 被 称 为 软件 。 如 今 
et 0 
这 | 间 > 谷 语 。 


说 起 软件 ， 会 让 人 想起 “柔软 灵活 ?”， 但 事实 上 ， 缺 乏 灵 活性 的 东西 有 很 
多 。 程 序 规模 小 的 时 候 ， 还 能 够 简单 地 更 改 ， 让 人 和 觉得 有 有 灵活 性 。 但 对 
于 那些 大 规模 商用 软件 ， 各 部 分 依存 关系 很 紧密 ， 改 动 一 个 地 方 就 会 对 
别 的 地 方 有 影响 ， 总 是 不 能 随心 所 欲 地 更 改 。 


4.3.1 软件 开发 的 亚 剧 


在 软件 开发 过 程 中 ， 会 遇 到 各 种 各 样 的 问题 ， 原 因 归 结 起 来 主要 有 两 个 
方面 ， 一 个 是 复杂 性 ， 一 个 是 变化 性 。 


软件 的 规模 越 大 ， 各 个 部 分 之 间 的 牵连 越 复杂 ， 更 改 也 就 越 难 。 如 条 软 
件 单 纯 而 且 规模 小 ， 更 改 还 相对 容易 。 随 着 计算 功能 的 提高 ， 交 给 计算 
机 的 任务 规模 也 越 来 越 大 。 几 乎 所 有 的 软件 ， 都 随 痢 用 户 需求 的 提高 而 
得 以 扩展 ， 变 得 越 来 越 复杂 。 


如 果 只 是 增加 软件 功能 ， 也 不 会 引起 那么 多 的 问题 。 但 是 ， 在 软件 开发 
过 程 中 ， 需 求 变 更 几乎 是 不 可 避免 的 。 在 洽谈 时 ， 即 便 已 经 同意 了 画 在 
纸 上 的 软件 模型 ， 可 一 旦 见 到 了 程序 , “还 是 感觉 人 不对劲， 和 希望 再 改 一 
改 "， 很 多 用 户 都 会 这 么 说 。 我 自己 作为 一 个 多 年 的 职业 程序 员 ， 对 于 
用 户 想 到 哪儿 就 是 哪儿 的 作法 ， 也 经 常会 发 牢骚 。 


话 虽 这 样 说 ， 前 几 天 ， 我 委托 同事 写 了 一 个 程序 ， 尽 管事 前 已 经 同意 了 
需求 ， 但 看 了 实际 程序 以 后 ， 还 是 妨 不 住 说 :“ 与 想象 的 稍微 不 同 ， 能 
这 样 改 一 改 吗 ? ”自己 竟然 也 跟 那 些 被 我 发 过 牢骚 的 用 户 完全 一 样 了 ， 
唉 ， 只 能 感叹 人 是 多 么 地 自私 任性 。 

先 不 说 这 些 了 ， 尽 管 软 件 越 来 越 复杂 ， 更 改 所 需要 的 花费 越 来 越 大 ， 但 


用 户 要 求 却 越 来 越 多 样 化 ， 对 软件 的 变更 要 求 也 越 来 越 频 楷 。 长 此 以 
往 ， 软 件 开发 肯定 要 在 什么 地 方 失败 。 



































4.3.2 ”开放 一 封闭 原则 


面 对 以 上 情况 ， 有 用 的 原则 是 开放 一 封闭 原则 (open-closed 
principle〉。 开 放 一 封闭 原则 是 Eiffel 语言 的 设计 者 Bertrand Meyer 在 其 
著作 《 面 回 对 象 的 软件 构造 》 中 介绍 的 原则 。 其 定义 如 下 ， 非 常人 简单 。 


对 模块 扩展 必须 开放 (Open) ， 对 修改 必须 封闭 (Closed) 。 


所 谓 “ 对 模块 扩展 必须 开放 ”， 是 指 模块 可 以 扩展 。 比 如 ， 如 果 数 据 结构 
能 够 退 加 新 的 字段 ， 或 是 能 够 妃 加 新 的 功能 ， 束 可 以 称 模块 是 开放 的 。 
茶 一 模块 会 被 用 到 什么 地 方 ， 不 可 能 完全 预测 。 为 了 应 对 将 来 的 需要 ， 
对 于 扩展 必须 是 开放 的 。 


所 谓 “ 对 修改 必须 封闭 ”"， 是 指 东 一 模块 被 别 的 模块 引用 时 的 要 求 。 必 须 
做 成 这 个 样子 : 即使 被 引用 一 方 的 实现 细节 发 生变 化 ， 也 不 会 带 来 问 
题 。 


AL 


也 就 是 说 ， 即 使 菜 一 模块 的 内 部 结构 改变 了 ， 对 外 接口 也 应 当 是 不 变 
的 。 如 末 对 外 接口 不 能 保持 不 变 ， 模 块 束 不 能 稳定 使 用 。 使 用 不 稳定 的 
RS 
0H。 


把 open-closed principle 译作 * 开 放 一 封闭 原则 ”， 感 党 有 点 生 便 。 不 管 怎 
样 ， 一 次 又 一 次 重复 “开放 一 封闭 原则 ”都 显得 有 点 见长 ， 以 下 简称 为 
OCP 。 


4.3.3 面向 对 象 的 情况 

既 要 开放 ， 又 要 封闭 ， 这 看 起 来 互相 矛盾 。 但 是 面 加 对象 编 程 语言 能 够 
很 彻底 地 消除 这 个 矛盾 。 

请 看 图 4-23。 这 个 程序 里 有 3 种 箱子 (普通 的 箱子 、 上 了 锁 的 箱子 及 扎 
着 彩 市 的 箱子 ) ， 要 根据 箱子 的 种 类 来 打开 箱子 。 


可 以 看 出 ， 这 是 一 个 很 漂亮 的 程序 ， 只 用 最 少 的 代码 就 能 实现 想 做 的 
事 。 如 果 想 让 这 个 程序 对 应 新 种 类 的 箱子 ， 只 需要 生成 新 的 箱子 对 象 ， 
为 这 个 箱子 定义 open 方法 就 行 了 。 所 以 ， 可 以 说 ， 这 个 程序 对 于 修改 
而 言 是 封闭 的 1 。 





























这 句 话 应 该 是 ， 这 个 程序 对 于 扩展 而 言 是 开放 的 。 一 一 译 者 注 


一 











面 癌 对 象 的 方法 〈OCP ) 
# 变量 box1、box2 和 box3 分 别 是 3 种 箱子 

















def box1.open() 
puts(" 打 开 箱 子 ") 


end 


def box2.open() 
puts ("解锁 ,打开 箱子 ") 


end 


def box3.open() 
puts(" 解 开 彩 带 ， 打 开 箱子 ") 


end 























box1.open() # 显示 “打开 箱子 ” 
box2.open() # 显示 “解锁 ， 打 开 箱 子 ” 
box3.open() # 显示 “ 解 开 彩带 ， 打 开 箱 子 ” 

















图 4-23 3 种 打开 箱子 的 代码 ， 面 向 对 象 的 情况 ， 满 足 OCP 原则 
3 种 箱子 是 各 不 相同 的 对 象 ， 打 开 箱子 只 要 调用 


box.open() 


就 行 了 ， 对 哪个 箱子 都 一 样 。 即 使 将 来 箱子 种 类 增加 了 ， 只 要 那个 对 象 
有 open 方法 ， 就 可 以 同样 处 理 。 结 果 ， 即 使 追加 了 箱子 ， 也 不 用 更 改 
现 有 代码 。 所 以 ， 这 个 程序 对 于 修改 而 言 是 封闭 的 。 


OCP 初 看 起 来 似乎 是 自 相 矛盾 的 ， 但 如 末 使 用 面向 对 象 语言 来 编写 程序 
的 话 ， 就 完全 能 够 达到 它 的 要 求 。 


4.3.4 非 面 问 对 象 的 情况 
那么 ， 让 我 们 来 看 看 用 非 面向 对 象 语言 编写 程序 来 进行 相同 处 理 的 情况 


(参见 图 4-24) 。 在 这 个 程序 中 ， 将 来 箱子 种 类 增加 时 ， 需 要 更 改 
box_open 子 程序 。 这 次 与 箱子 关联 的 子 程序 只 有 box_open ， 如 果 有 


























多 种 子 程序 ， 单 纯 考 虑 各 种 组 合 ， 就 会 有 以 下 这 么 多 。 


def box_ open(box) 


# box_type(box) 假定 由 子 程序 能 知道 箱子 种 类 

if box_ type(box) == "plain" 
puts(" 打 开 箱 子 ") 

elsif box type(box) == "lock" 
puts(" 解 锁 ， 打 开 箱 子 ") 

elsif box type(box) == "ribbon" 
puts(" 解 开 彩 带 ， 打 开 箱 子 ") 

else 
puts(" 不 知道 打开 方法 ") 

end 






































> 量 box1, box2, box3 分 别 是 3 种 箱子 








box_open(box1)  # 显示 “打开 箱子 ” 
box_open(box2)  # 显示 “解锁 ， 打 开 箱子” 
box_open(box3)  # 显示 “ 解 开 彩 带 ， 打 开 箱 子 ” 




















图 4-24 3 种 打开 箱子 的 代码 ， 非 面向 对 象 的 情况 ， 不 满足 OCP 原则 
子 程序 的 种 类 x 箱子 的 种 类 
































箱子 种 类 增加 了 ， 组 合 的 种 类 也 会 急剧 增加 。 这 样 就 不 能 随便 增加 箱子 





种 类 ， 对 于 扩展 而 言 ， 不 能 说 是 “开放 ”的 。 


有 反之， 根据 箱子 种 类 的 不 同 而 调用 不 同 的 子 程序 ， 会 怎样 呢 ? (参见 图 
4-25) 这 样 增加 箱子 种 类 ， 对 各 种 箱子 定义 了 独立 的 子 程序 ， 因 此 可 以 
说 对 于 修改 而 言 是 封闭 的 。 但 是 ， 对 于 调用 子 程 序 的 那 一 侧 而 言 ， 需 要 
考虑 到 箱子 的 种 类 。 因 此 ， 很 难说 它 对 于 扩展 而 言 是 开放 的 。 

















def plain_box_open(box) 
puts(" 打 开 箱 子 ") 


end 


def locked box _ open(box ) 
puts(" 解 锁 ， 打 开 箱 子 ") 


end 





def ribbon box _open(box ) 
puts(" 解 开 彩 带 ， 打 开 箱子 ") 


end 








plain box_open(box1) 
locked box_open(box2) 
ribbon box_open(box3) 





图 4-25 打开 3 种 箱子 的 代码 ， 别 的 非 面向 对 象 型 代码 
使 用 面 癌 对 象 语 言 ， 功 能 使 用 方 可 以 不 必 知 道 功能 提供 方 各 种 类 的 详细 





内 容 ， 而 只 需要 着眼 于 它们 具有 什么 样 的 接口 就 可 以 。 功 能 扩展 以 后 ， 
由 于 多 态 ， 扩 展 后 的 功能 能 够 目 动 使 用 ， 使 用 方 只 要 知道 接口 就 行 了 。 
功能 提供 方 提供 了 新 功能 ， 或 是 内 部 有 了 更 改 ， 功 能 使 用 方 都 不 用 做 任 
何 更 改 。 也 就 是 说 ， 从 功能 的 使 用 方 来 看 ， 模 块 对 于 修改 是 封 于 的 。 


另 一 方面 ， 功 能 的 提供 方 只 要 生成 与 既 存 对 象 具 有 相同 接口 的 对 象 ， 任 
何 时 候 都 能 退 加 新 的 功能 。 也 就 是 说 ， 对 于 功能 扩展 而 言 是 开放 的 。 这 
种 情况 下 的 接口 ， 对 于 静态 语言 来 说 ， 就 是 相同 的 类 型 ， 而 对 于 动态 语 
言 来 说 ， 就 是 有 没有 相同 的 方法 (换个 说 法 就 是 Duck Typing” ) 。 

2 所 谓 Duck Typing， 是 指 这 样 一 种 思考 方法 ， 如 果菜 个 东西 ， 其 行为 跟 鸭 子 一 样 ， 那 么 不 管 它 
是 不 是 鸭子 ， 都 将 它 看 作 鸭 子 。 这 种 想法 不 考虑 某 种 对 象 所 属 的 类 ， 而 只 关心 它 具 有 什么 样 的 
行为 《具有 哪些 方法 ) 。 


很 多 面向 对 象 语言 ， 通 过 使 用 继承 ， 只 要 添加 一 个 子 类 ， 就 可 以 往 模块 
《类 ) 里 随时 追加 功能 。 因 为 有 继承 而 允许 功能 的 追加 (对 功能 扩展 而 
言 是 开放 的 ) ， 因 为 有 多 态 而 维持 模块 接口 的 稳定 性 (对 修改 而 言 是 圭 
闭 的 ) ， 开 放 和 封闭 能 同时 实现 。 


从 实用 主义 的 观点 看 ， 面 同 对 象 的 精 骨 就 在 于 对 OCP 的 实践 。 至 于 把 
对 象 看 做 物体 理解 起 来 比较 容易 ， 能 够 建立 现实 世界 的 模型 等 ， 这 些 都 
只 不 过 是 些 锦上添花 的 东西 。 


“数据 与 函数 没有 一 体 化 ， 所 以 不 是 面 各 对 象 ”， “封装 得 不 充分 ， 所 以 
不 是 面 癌 对象? 等 ， 世 上 有 不 少 人 作出 类 似 这 样 的 判断 。 道 理 上 也 许 的 
确 是 这 样 ， 但 面向 对 象 无 非 是 编程 的 一 种 工具 ， 是 不 是 理论 上 正确 的 面 
问 对 象 不 重要 ， 是 否 符合 OCP， 生 产 性 高 不 高 ， 维 护 性 好 不 好 ， 能 人 否 适 












































































































































应 将 来 的 更 改 ， 等 等 ， 这 些 才 是 重点 。 
4.3.5” OCP 与 Template Method 模 式 


里 说 使 用 面 同 对 象 语言 的 功能 ， 可 以 实现 OCP， 但 也 只 是 说 有 这 种 可 能 
性 ， 并 不 是 说 什么 时 候 都 能 实现 。 当 然 ， 虽然 使 用 了 面向 对 象 语言 ， 却 
做 成 了 一 个 粳 料 的 设计 ， 这 种 情况 也 是 屡见不鲜 的 。 


于 是 设计 模式 登场 了 。 正 如 上 节 所 示 ， 设 计 模 式 就 是 给 做 得 好 的 设计 起 
个 名 字 ， 并 将 它们 进行 分 类 。 分 类 中 的 很 多 设计 模式 之 所 以 优秀 ， 是 因 
为 能 够 经 得 起 OCP 所 要 求 的 变化 。 


2 现在 实际 看 看 几 种 设计 模式 ， 考 察 一 下 它们 都 是 怎样 满足 OCP 
和。 


上 市 介绍 的 Template Method 模式 ， 是 满足 OCP 的 基本 手段 。 之 所 以 这 

么 说 ， 是 因为 其 他 的 设计 模式 都 是 利用 多 个 类 的 关联 来 实现 的 ， 而 

J Method 模式 则 仅仅 使 用 了 继承 ， 基 本 上 无 非 就 是 实现 一 个 抽 
类 而 已 。 


上 节 利 用 Ruby 标准 模块 的 Enumerable 和 Comparable 解释 了 
Template Method 模式 ， 这 次 从 既 存 类 中 提取 抽象 类 (Ruby 中 是 模块 ) 
的 观点 来 考察 一 下 。 


表 4-4 列举 了 Ruby 标准 类 I0 的 方法 中 用 于 输出 的 方法 。 
表 4-4 ”I0 类 与 输出 相关 的 方法 
io<<obj | 输出 对 象 


偷 出 参数 
带 格式 输出 

















行 〈 换 行 ) 


输出 字符 串 








这 些 方法 在 与 I0 类 有 互 换 性 的 StringI0O 类 及 ARGF 对 象 中 也 有 实 





现 。 但 是 ， 仔 细 想 一 想 ， 不 管 哪 种 方法 都 进行 类 似 的 处 理 ， 所 以 可 以 用 
Template Method 模式 归纳 一 下 。 


例如 ， 选 择 write 作为 基本 处 理 ， 其 他 方法 可 以 用 表 4-5 所 示 的 处 理 来 
实现 。 将 这 些 处 理 作为 一 个 模块 分 割 开 以 后 (参见 图 4-26) ， 将 命令 
行 参数 指定 的 多 个 文件 结合 成 一 个 虚拟 文件 的 ARGF， 在 对 字符 串 进 行 
输入 输出 的 StringI0 类 中 ， 就 没有 必要 再 重复 这 些 定 义 。 


表 4-5 用 write 方法 将 表 4-4 中 的 方法 归纳 起 来 














使 用 write 的 处 理 

print 将 各 参数 变 成 字符 串 传递 给 write 

printf 用 第 一 个 参数 将 参数 格式 化 以 后 传递 给 write 
将 代表 字符 编码 的 整数 变 成 字符 第 传递 给 write 
把 参数 字符 串 和 换行 符 传递 给 write 














module Writable 


def <<(obj ) 
self.write(obj.to_s) 

end 

def print(*args) 
args.each do |obj| 

self.write(obj.to_ s) 

end 

end 

def printf(fmt, *args) 
self.write(sprintf(fmt, *args)) 

end 

def putc(c) 
self.write(sprintf("%c",c)) 

end 

def puts(s) 
self.write("%s\n",s) 

end 


end 

















图 4-26 Ruby 中 Writable 模块 的 定义 





也 就 是 说 ， 有 了 Writable 模块 ，I0 类 以 外 的 类 中 ， 只 需 定义 适合 
自 实现 方式 的 write 方法 ， 然 后 将 Writable 模块 包含 进来 就 可 以 了 。 


有 了 Writable 模块 ， 处 理 内 容 相 似 的 方法 吏 不 需要 分 别 定义 ， 而 且 ， 
在 以 后 开发 需要 具备 这 种 输出 方法 的 类 时 ， 还 可 以 再 利用 。 


现在 的 Ruby 还 没有 这 样 的 Writable 模块 ， 实 际 做 一 做 ， 觉 得 特别 
好 。 也 许 在 将 来 的 版 本 中 会 导入 这 一 模块 。 


同样 在 处 理 中 重复 编程 、 代 码 复制 ， 都 是 违反 软件 开发 中 重要 的 DRY 
原则 的 。 从 OCP 的 观点 来 看 ， 重 复 也 是 非常 恶劣 的 。 同 样 的 代码 反复 
出 更， 如 打 要 对 代码 进行 茶 种 修改 ， 那 么 全 部 的 代码 者 必须 修改 。 不 能 
算 作 “对 于 修改 而 言 是 封闭 的 ”。 


数据 结构 的 扩展 也 有 影响 复制 代码 全 体 的 危险 性 ， 所 以 也 不 能 算 “ 对 于 
扩展 而 二 是 开放 的 ”。 OCP 与 DRY， 这 两 个 原则 实际 上 具有 相同 的 意 




















4.3.6 ”Observer 模式 





Template Method 模式 说 到 底 无 非 是 继承 ， 现 在 调查 一 下 关联 到 多 个 类 
的 设计 模式 与 OCP 的 关系 吧 。 作 为 最 简单 的 例子 ， 还 以 上 节 讲 解 过 的 
Observer 模式 为 例 。 


Observer 模式 中 ， 有 降低 多 个 对 象 间 依 赖 性 的 机 制 。 请 看 图 4-27。 那 是 
上 节 最 后 所 用 的 程序 示例 。 由 每 秒 产 生 一 次 事件 的 被 观察 者 (更 新 通知 
者 ) 和 显示 当前 时 间 的 观察 者 所 构成 的 简单 时 钟 程序 。 











require "observer" 








# 更 新 通知 者 (Observable) 
# 每 秒 发 送 1 次 更 新 通知 的 类 
class Tick 




















include Observable 
def tick 
loop do 
now = Time .now 
changed 
notify _ observers(now.hour，now.min，now.sec) 
sleep 1.6 - Time.now.used / 1666666 .0 


end 
end 
end 


# 观察 者 (0bserver ) 
# 依照 通知 ， 表 示 现 在 时 刻 的 类 (文字 版 ) 
class TextClock 

















def update(h, m, s) 
printf "Ne[8DX%62d:%62d:%62d"，h，m，s 
STDOUT.flush 
end 
end 


tick = Tick.new 
tick.add observer(TextClock.new) 
tick.tick 











图 4-27 ”Observer 模式 的 程序 示例 ， 显 示 字 符 式 时 钟 





程序 的 细节 上 节 已 经 讲解 过 了 ， 束 省 略 不 讲 了 ， 这 里 重要 的 是 末尾 3 
行 。 更 新 通知 者 与 观察 者 的 关系 仅 用 add_observer 一 行 来 定义 ， 其 他 
部 分 全 部 都 是 互相 独立 的 。 

所 以 ， 即 使 以 后 要 求 变 化 了 ， 需 要 更 改 时 钟 的 外 观 时 ， 只 需要 生成 新 的 
观察 者 类 来 代替 TextClock ， 并 用 add_observer 登录 就 行 了 。 很 简 
可 以 认为 这 个 设计 模式 对 于 更 改 是 开 
夏 的 。 


另外 ， 更 新 通知 者 与 观察 者 之 间 的 消息 只 有 通过 add_observer 而 建立 
的 唯一 关系 ， 不 必 担 心 有 别 的 恶劣 影响 。 这 意味 着 对 于 修改 而 言 是 封闭 
的 。 


由 此 可 知 ，Observer 模式 是 满足 OCP 的 。 


不 仅 限 于 Observer 模式 ， 很 多 被 认为 优秀 的 设计 模式 ， 都 可 以 基于 
OCP 来 说 明 它 们 为 什么 优秀 。 


那么 ， 不 使 用 Observer 模式 的 情形 会 怎么 样 呢 ? 编写 一 个 不 用 Observer 
模式 的 程序 ， 实 现 与 图 4-26 相同 的 处 理 吧 (参见 图 4-28) 。 











class TextClock 


def start 
loop do 
now = Time.now 
printf "\e[8D%862d:%62d:%82d", now.hour, now.min, now.sec 
STDOUT .flush 
sleep 1.6 - Time.now.used / 16660666.0 


end 
end 
end 


TextClock.new.start 











图 4-28 不 使 用 设计 模式 的 文字 时 钟 的 代码 ， 乍 一 看 是 清晰 而 恨 好 的 代码 


看 起 来 比 图 4-27 要 简短 得 多 。 但 能 否 经 得 住 将 来 的 更 改 呢 ? TextClock 
类 专门 设计 为 用 文字 显示 时 刻 。Observer 模式 版 本 中 更 新 通知 者 所 进行 
的 处 理 ， 也 就 是 计 秒 数 处 理 和 观察 者 的 时 刻 显 示人 处 理 ( 在 图 4-27 中 ) 
相互 连接 起 来 了 。 所 以 ，TextClock 处 理 的 一 部 分 不 能 被 其 他 应 用 程序 
所 沿用 。 估 计 只 能 将 TextClock 复制 ， 然 后 进行 改造 了 。 复 制 ， 也 就 是 
将 进行 相同 处 理 的 代码 分 散 到 几 处 ， 是 违反 DRY 原则 的 。 


但 是 ， 如 果 事 先知 道 文 字 时 钟 的 规格 将 来 也 会 一 成 不 变 ， 图 4-28 的 程 
序 还 是 很 称心 的 。 因 为 它 简 短 而 直接 ， 执 行 效率 也 高 。 


归根 结 底 ，DRY 也 好 ，OCP 也 好 ， 都 不 过 是 原则 ， 根 据 具 体 情 况 ， 还 
是 要 做 适当 的 选择 。 如 果 代 码 没 有 再 利用 的 打算 ， 也 没有 将 来 要 扩展 其 
功能 的 打算 的 话 ， 也 就 没有 必要 生 搬 硬 套 设计 模式 。 使 用 设计 模式 时 有 
必要 先 做 判断 。 














4.3.7 ”使 用 Strategy 模 式 

介绍 一 个 新 的 设计 模式 。 根 据 《 设 计 模 式 》，Strategy《〈 策 略 ) 模式 是 
这 样 解释 的 : “定义 算法 的 集合 ， 将 各 算法 封装 ， 使 它们 能 够 交换 。 利 
用 Strategy 模式 ， 算 法 和 利用 这 些 算法 的 客户 程序 可 以 分 别 独立 进行 修 
改 而 不 互相 影响 。” 


Strategy 模式 ， 就 是 将 容易 变化 的 处 理 归纳 为 独立 的 对 象 ， 然 后 使 它们 








能 够 互相 交换 。 使 用 方法 与 将 容易 变化 的 处 理 交 给 子 类 的 Template 
Method 模式 相 类 似 。 两 个 模式 最 大 的 区 别 在 于 ，Strategy 模式 是 独立 的 
对 象 ， 能 够 动态 交换 处 理 逻 辑 (参见 图 4-29) 。 





























Template Method 模式 Strategy 模式 
Strategy 
i | Context — Strateey | 
刀 状 | 
| 起 类 __ | | Context API() 
method1() A 
method2() 
primitivel() 具体 处 理 交 给 Strategy 对 
象 ， 可 以 动态 交换 
子 关 | 
primitivel{) 
在 子 类 中 追加 具体 处 理 。 
Primitivel 是 抽象 方法 


图 4-29 Template 模式 与 Strategy 模式 


静态 语言 中 ，Strategy 对 象 需要 一 个 共同 的 父 类 ， 实 现 这 个 父 类 往往 要 
用 到 Template Method 模式 。 


通过 Ruby 库 中 使 用 Strategy 模式 的 例子 来 介绍 cgi/session 
库 。cgi/session 库 是 CGI 程序 中 ， 识 别 某 一 特定 用 户 的 一 连 串 操作 
(session) 的 库 。 





使 用 cgi/session 库 ，CGI 里 有 必要 保存 session 固有 的 数据 ， 但 保 
存 方法 因应 用 程序 的 不 同 而 有 所 不 同 。 一 个 应 用 程序 中 可 能 是 往 临 时 目 
录 里 放 一 个 文件 ， 另 一 个 应 用 程序 中 或 许 是 将 session 数据 放 在 数据 
库 里 。 想 使 用 的 数据 库 管 理 器 也 是 千差万别 。 


像 这 样 的 情形 ， 不 知道 会 有 什么 要 求 发 生 ， 库 对 于 变化 应 该 有 开放 
性 。cgi/session 库 使 用 Strategy 模式 ， 对 应 预想 中 的 未 来 变化 。 


图 4-30 是 cgi/session 的 使 用 示例 。 其 中 重要 的 是 第 6 行 
( 即 'database_manager' 那 一 行 ) 。 

















require 'cgi' 
require 'cgi/session' 
require 'cgi/session/pstore' # 提供 CGI::Session::PStore 














session = CGI::Session.new(cgi, 
'database_manager' => CGI::Session::PStore,# 使 


"session expires' => Time.now + 36 * 60) # 30 
if cgi.has key?('user name') and cgi['user name'] != "" 
session['user name'] = cgi['user name'].to s 
elsif lsession['user name'] 
session['user name'] = "guest" 
end 
session.close 








图 4-30 ”cgi/session 库 的 使 用 例子 








CGI: :Session 类 在 生成 对 象 时 ， 用 哈 希 表 指 定 选 项 ， 可 以 指定 
database_manager 为 保存 实际 数据 的 类 〈 数 据 库 管理 器 ) 。 这 个 例子 
中 ， 指 定 了 利用 Ruby 标准 版 附带 的 简易 面向 对 象 数 据 库 PStore 的 数据 
库 管 理 器 CGI: :Session: :PSstore 。 


除 此 之 外 ，Ruby 标准 版 还 提供 了 将 session 数据 保存 在 普通 文件 的 
CGI: :Session: :FileSstore 类 ， 以 及 保存 在 内 存 的 

CGI: :Session: :MemoryStore 类 3 等 。Ruby 标准 版 中 没有 附带 将 
session 信息 保存 在 关系 数据 库 (RDBMS) 的 数据 库 管理 器 类 ， 但 在 
RAA4 中 ， 记 录 有 利用 MySQL、PostgreSQL 以 及 dRuby 进行 网 络 通信 
的 类 。 


因为 保存 在 内 存 中 ， 所 以 在 使 用 多 个 进程 的 Apache 中 不 能 使 用 。 























CD 








4RAA (Ruby Application Archive) 是 一 个 索引 (http://raa.ruby-lang.org/ ) ， 记 录 了 利用 Ruby 
实现 的 库 及 应 用 程序 。 利 用 MySQL 的 ， 可 以 参照 
http://moko.cry.jp:3232/~keiji/linux/pub/files/mysql-session-0.16.tar.gz 。 利 用 PostgreSQL 的 ， 可 以 
参照 http:/www.angelfire.com/vi/oremacs/ruby_page.html 。 利 用 dRuby 的 ， 可 以 参照 
ftp://ftp.tietew.jp/pub/ruby/drbsession-0.1.tar.gz。 


cgi/session 对 象 在 初始 化 处 理 中 生成 数据 库 管 理 器 类 的 对 象 ， 保 存 
在 类 实例 变量 @dbman 中 。 在 需要 访问 session 数据 的 时 候 ， 调 用 数据 
库 管理 器 的 方法 进行 实际 的 处 理 (参见 表 4-6) 。 

表 4-6 数据库 管 理 右 的 方法 





















































写 出 session 数据 











close 关闭 session 数据 





数据 库 管理 器 的 restore 方法 返回 表示 实际 数据 库 的 对 

象 ，CGI: :Session 对 象 使 用 与 该 数据 库 对 象 数 组 相同 的 接口 ([] 方法 
和 []= 方法 ) 来 访问 。update 方法 将 数据 库 对 象 的 状态 写 到 实际 文件 
里 。Ruby 这 样 的 动态 语言 ， 只 要 有 了 表 4-6 所 示 的 这 些 方法 ， 不 管 什 
么 都 能 作为 数据 库 管 理 器 类 来 使 用 。 

4.3.8 ”Strategy 模 式 与 OCP 

最 后 来 验证 一 下 Strategy 模式 是 如 何 满足 OCP 的 。 

首先 看 是 不 是 开放 的 。 使 用 Strategy 模式 时 ， 只 要 更 换 封 装 了 算法 的 
Strategy 对 象 ， 就 可 以 妃 加 及 修改 功能 。cgi/session 的 情形 ， 只 要 更 
改 了 选项 所 指定 的 数据 库 管 理 器 类 ， 就 能 够 改变 session 数据 的 保存 
方法 。 所 以 ， 可 以 说 Strategy 模式 对 扩展 而 言 是 开放 的 。 

另 一 方面 ， 即 使 扩展 或 修改 了 功能 ， 利 用 Strategy 模式 的 一 方 也 没有 必 
要 改变 。cgi/session 的 情形 ， 即 使 开发 了 新 的 保存 session 数据 的 
方法 ， 既 有 的 代码 也 没有 必要 变更 ， 而 且 利 用 新 的 数据 库 管理 器 时 ， 除 
了 CGI: :Session 对 象 的 初始 化 选项 以 外 ， 别 的 代码 也 没有 更 改 的 必 
要 。 所 以 ，Strategy 模式 对 于 更 改 而 言 是 封闭 的 。 

因此 ，Strategy 模式 完全 满足 OCP。 


由 于 篇 幅 的 关系 ， 设 计 模 式 中 只 验证 了 很 小 一 部 分 ， 世 上 很 多 设计 模 
式 ， 为 了 能 应 对 将 来 可 能 的 修改 ， 部 是 按照 OCP 的 要 求 来 设计 的 。 


* * * 


























本 节 从 OCP 的 观点 ， 重 新 审视 了 一 下 设计 模式 。 由 继承 实现 的 OCP， 
通过 使 用 设计 模式 而 变 得 更 强 有 力 。 我 想 大 家 可 以 认识 到 设计 模式 是 应 
变 能 力 很 强 的 工具 ， 得 到 了 广泛 应 用 。 


实际 上 ，OCP 与 设计 模式 相 结合 ， 并 不 是 我 的 首创 。 据 我 所 知 ， 日 本 国 
内 将 这 两 者 结合 起 来 讲解 的 ， 还 有 石井 胜 先生 。 石 井 先生 的 讲解 详 见 


http:/www.objectclub.jp/community/memorial/homepage3.nifty.com/masarl/, 





ocp-2.html 。 
词汇 与 通用 语言 的 重要 性 


关于 设计 模式 的 书籍 刚 出 现 的 时 候 ， 我 最 初 的 印象 是 “ 夸 夸 其 谈 ， 其 
实 都 是 些 理所当然 的 内 容 ”。《 设 计 模 式 》 一 书 所 列举 的 23 种 模式 ， 
很 多 都 是 经 党 使 用 ， 并 不 怎么 罕见 的 模式 。 而 且 ， 还 含有 很 多 在 
C++ 及 Java 那样 的 静态 语言 中 虽然 有 效 ， 但 在 Smalltalk 及 Ruby 中 却 
并 没有 多 大 意义 的 模式 。 


但 过 了 一 阵子 我 有 了 更 深刻 的 认识 。 设 计 模 式 的 本 质 ， 并 不 是 介绍 至 
今 没 有 用 过 的 新 模式 ， 而 是 通过 给 屡屡 使 用 过 的 模式 起 一 个 合适 的 名 
字 ， 从 而 提供 了 设计 时 的 词汇 。 


人 使 用 语言 进行 思考 。 没 有 语言 的 系统 也 就 无 法 思考 ， 不 使 用 语言 ， 
Se 


旧 约 全 书 里 记载 了 巴比伦 塔 的 故事 ， 描 写 了 人 与 人 之 间 因 为 语言 互 不 
相通 ， 而 中 止 了 塔 的 建设 ， 人 们 都 纷纷 散 去 的 场面 。 语 言 的 重要 性 可 
见 一 斑 。 


据说 住 在 阿拉 斯 加 与 加 拿 大 的 因 纽 竺 人 的 语言 中 ， 表 现 雪 与 冰 的 词汇 
有 80 种 。 居 然 还 需要 把 这 么 微妙 的 差异 加 以 区 别 。 我 们 也 有 很 多 表 
现 雨 的 词汇 ， 如 毛毛 十 、 初 夏 雨 、 秋 雨 、 阵 雨 等 。 


设计 模式 也 一 样 。 软 件 开 发 中 ， 虽 然 也 存在 能 用 于 各 种 局 面 的 类 或 专 
业 用 语 ， 但 如 果 不 给 它们 起 一 个 合适 的 名 字 ， 很 多 开发 人 员 都 不 可 能 
意识 到 它们 的 存在 。 设 计 模式 束 是 将 这 样 的 词汇 集中 起 来 ， 并 进行 分 
类 的 一 种 尝试 。 所 以 ， 书 上 介绍 的 23 种 模式 ， 不 过 是 一 个 开始 。 最 
终 还 应 有 一 个 能 收录 更 多 模式 的 “设计 模式 目录 ”。 


很 遗憾 ， 这 种 目录 还 没有 出 现 。 也 许 人 们 连 现 有 的 23 种 模式 都 没 能 
够 灵活 运用 ， 还 没 进化 到 需要 退 求 更 多 模式 的 阶段 。 




















第 5 章 ”Ajax 
5.1 Ajax 和 JavaScript (前 篇 ) 


很 多 网 络 应 用 程序 ， 比 如 Google Maps， 不 用 进行 网 页 更 新 就 可 以 将 处 
理 进 展 下 去 。 


如 果 要 进行 网 页 更 新 ， 就 要 对 画面 进行 描绘 处 理 ， 应 用 程序 的 反应 会 变 
得 迟缓 。 另 一 方面 ， 使 用 Web 2.01 技术 的 应 用 程序 ， 因 为 不 需要 进行 
画面 更 新 ， 能 顺利 地 将 画面 处 理 下 去 。 像 上 述 这 一 类 实现 Web 应 用 的 
技术 ， 称 为 Ajax (Asynchronous JavaScript and XML)， 售 义 是 “异步 
JavaScript 及 XML”。 本 章 讨论 Ajax 及 其 相关 技术 。 


1 Web 2.0 不 存在 确切 的 定义 ， 一 般 是 指 比 Web 技术 更 加 重视 扩大 对 使 用 者 提供 的 服务 。 


实际 上 ，Ajax 不 算 一 个 新 技术 ， 只 是 既 存 技术 的 组 合 。Ajax 这 个 名 字 
是 在 2005 年 2 月 由 美国 Adaptive Path 公司 的 Jesse James Garrett 命名 
的 。 现 在 的 Web 应 用 大 多 数 都 使 用 了 Ajax 技术 ， 与 这 个 名 字 有 很 大 关 
系 。 名 字 是 非常 重要 的 ， 顺 便 提 一 句 ， 美 国有 一 种 叫 AJAX 的 厨房 洗涤 
剂 ， 欧 洲 有 一 家 名 为 AJAX 的 足球 俱乐部 。 


5.1.1 通信 及 异步 页 面 更 新 


Ajax 的 最 大 特点 是 进行 异步 操作 。 异 步 意味 着 ，Web 浏览 器 的 通信 和 
页 面 更 新 是 互相 独立 的 。 


以 前 的 Web 应 用 程序 ， 每 按 下 一 个 按钮 束 开 始 显示 下 一 个 页 面 ， 在 页 
完整 呈现 之 前 ， 用 户 只 能 等 待 ， 无 法 进行 其 他 操作 。 


相反 ， 使 用 了 Ajax 技术 的 页 面 是 在 后 台 和 HTTP 服务 器 进行 通信 。 设 
计 优 良 的 Web 应 用 程序 ， 在 客户 和 服务 器 通信 的 过 程 中 也 可 以 让 用 户 
进行 操作 ， 而 不 需要 等 待 。Ajax 的 最 大 优点 束 是 改善 了 应 用 程序 的 操控 




























































































以 前 的 Web 应 用 程序 和 使 用 了 Ajax 的 程序 的 区 别 ， 我 们 用 图 来 说 明 。 


对 于 以 前 的 应 用 程序 ， Web 浏览 器 和 HTTP 服务 器 是 按 如 图 5-1 所 示 的 


方式 进行 通信 的 。 
Web 浏览 器 HTTP 服务 喜 


服务 器 端的 处 理 
而 应 






显示 
请 求 
响应 
页 面 显示 








图 5-1 以 前 的 Web 应 用 程序 的 操作 


每 当 用 户 进行 操作 之 后 ， 需 要 更 新 页 面 ， 在 得 到 服务 器 的 响应 之 后 ， 下 
一 个 页 面 才能 显示 出 来 。 在 这 之 前 ， 用 户 只 能 等 待 。 


Ajax 应 用 程序 则 是 按 图 5-2 所 示 的 方式 进行 操作 的 。 
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卫 直 省 
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| 响应 | 
由 DHTML 进 Ajax 特有 的 
行 部 分 更 新 异步 处 理 


请 求 


图 5-2 Ajax 应 用 程序 的 操作 


Ajax 技术 中 ， 对 于 用 户 进行 的 操作 ， 基 本 是 由 JavaScript 在 Web 浏览 
器 中 进行 啊 应 。 仅 在 数据 必须 从 服务 器 获取 的 情况 下 ， 才 在 后 台 进 行 异 
步 通信 。 在 通信 过 程 中 ， 用 户 也 可 以 继续 对 Web 浏览 器 进行 操作 。 和 
服务 器 通信 得 到 的 结果 由 DHTML (后 面 我 们 将 进行 介绍 ， 对 当前 的 页 
面 进行 部 分 更 新 而 显示 出 来 。 


比如 Google Maps， 在 对 地 图 进行 拖拉 操作 时 ， 感 觉 像 是 在 操作 一 个 本 
地 机 上 的 巨大 的 地 图 文件 ， 深 动 得 非常 顺利 (参见 图 5-3) 。 实 际 上 ， 
这 是 使 用 了 Ajax 技术 从 服务 器 异步 获取 分 割 得 很 小 的 地 图 图 像 。 如 果 
在 速度 较 慢 的 网 络 上 使 用 Google Maps， 在 通信 结束 之 前 ， 还 没 来 得 及 








获取 地 图 图 像 数 据 时 ， 地 图 的 一 部 分 会 显示 空白 。 


网 页 图 片 祝 频 地 图 新 闻 音乐 购物 更 多 吾 新 ! | 帮助 


Google 地 图 搜索 地 图 








异步 通信 技术 不 仅仅 是 使 用 在 Web 应 用 程序 上 ， 对 于 改善 应 用 程序 的 
反应 也 非常 有 效 。 蜡 步 通信 是 将 处 理 细 分 成 多 个 处 理 来 交替 执行 。 处 理 
时 间 合 计 起 来 可 能 会 更 长 。 但 是 ， 在 通信 结束 之 前 用 户 不 需要 等 待 ， 所 
以 操作 的 不 愉快 感 会 少 很 多 。 一 般 情 况 下 ， 相 对 于 减少 总 处 理 时 间 来 
说 ， 减 少 最 大 等 竺 时间 更 重要 。 


5.1.2 技术 要 素 之 一 : JavaScript 


接 下 来 ， 我 们 依次 讨论 文 撑 Ajax 的 3 个 主要 技术 : JavaScript、XML 及 
DHTML 。 














JavaScript 是 最 近 几 乎 所 有 的 Web 浏览 器 处 理 系统 都 支持 的 一 种 编程 语 
言 。 因 此 ， 有 时 候 它 也 被 称 为 世界 上 最 普及 的 编程 语言 ”。 


JavaScript 可 以 简单 地 骸 入 到 表示 网 页 的 HIML 中 去 。 图 5-4 显示 了 一 
个 岁入 到 HTML 中 的 JavaScript 的 人 简单 例子 。 如 果 将 图 5-4 中 的 HTML 
文件 读 入 到 Web 浏览 器 中 ， 会 显示 出 “请 点 击 ” 的 字符 串 。 用 鼠标 点 击 
此 字符 串 会 弹出 一 个 信息 窗口 ， 显 示 “ 已 经 点 击 了 哦 ”。 





<html><head><title>JavaScript 举例 </title> 
<script type="text/javascript"> 
<1-- 
function alertOnClick() { 
alert(" 已 经 点 击 了 哦 ") ; 





} 

// --> 

</script></head> 

<body> 

<a _ onclick="alertonClick()"> 请 点 击 </a> 
</body> 

</html> 





图 5-4 组 入 到 HTML 中 的 JavaScript 示例 


, 利用 JavaScript 可 以 做 出 完全 不 用 和 服务 器 进行 通信 的 网 
。 如 果 将 JavaScript 技术 发 挥 到 极致 的 话 ， 仅 仅 使 用 Web 浏览 器 就 能 
匠 的 操作 。 


JavaScript 本 来 是 一 种 用 来 控制 Web 浏览 器 的 脚本 语言 ， 是 由 美国 
Netscape 通信 公司 设计 的 ， 设 计 者 是 Brendan Fich。 一 开始 它 叫 做 
LiveScript， 因 为 当时 Java 技术 变 得 越 来 越 流行 ， 于 是 改名 为 


JavaScript” 。 

















2 JavaScript 这 个 名 字 不 是 随便 起 的 ， 是 和 美国 Sun 公司 进行 交涉 ， 解 决 了 商标 上 的 问题 之 后 才 
得 以 使 用 的 。 


0 JavaScript 和 Java 是 完全 不 同 的 语言 。 除 了 名 字 和 语法 有 相似 
处 ， 语 句 都 是 由 大 插 弧 {} 括 起 来 之 外 ， 再 没有 其 他 关联 性 。 面 向 对 
复 编程 方面 也 完全 不 同 。 


另外 ，JavaScript 也 被 称 为 “最 易 被 误解 的 编程 语言 ”。 比 如 它 曾 被 认为 



































是 和 谍 入 式 应 用 程序 语言 中 简易 的 编程 语言 之 一 。 因 为 它 的 语法 和 规则 比 
较 简 单 ， 所 以 更 易 被 误解 。 


3 参考 JSON 的 开发 者 Douglas Crockford 的 文章 JavaScript the World's Most Misunderstood 
Programming Language (http://javascript.crockford.com/javascript.htm! ， 
http://d.hatena.ne.jp/brazil/20050829/1125321936 ) 。 


实际 上 ， 像 我 这 样 的 “编程 语言 迷 *， 对 JavaScript 有 更 深 的 兴起， 使 用 
起 来 也 格外 顺手 。 对 于 JavaScript 的 详细 讨论 会 放 在 后 面 的 章节 继续 进 
行 。 


5.1.3 ”技术 要 素 之 二 : XML 


也 许 没 有 必要 对 XML (eXtensible Markup Language) 重新 进行 说 明 。 
它 是 和 SGML、HTML 类 似 的 ， 使 用 标签 〈tag) 对 数据 进行 标识 说 明 
的 一 种 语言 。 


现在 ，XML 已 经 成 为 了 在 数据 表示 、 配 置 各 种 文件 及 其 他 多 种 场合 下 
广泛 使 用 的 一 种 格式 。 


Ajax 的 名 字 中 部 分 包含 了 XML， 是 因为 当初 大 部 分 使 用 Ajax 技术 的 应 
用 程序 都 使 用 了 XML 数据 ， 还 有 ， 用 JavaScript 进行 异步 通信 的 对 象 
的 名 字 是 XMLHttpRequest。 


可 是 ， 不 使 用 XML 的 XMLHttpRequest 的 通信 也 是 存在 的 。 使 用 Ajax 
技术 的 web 应 用 进行 通信 的 数据 格式 也 是 多 种 多 样 的 ， 比 如 有 普通 文 
本 格式 和 下 面 将 要 介绍 的 YAML， 以 及 JSON 等 。 


5.1.4 XML 以 外 的 数据 表现 形式 
最 近 ，YAML 和 JSON 作为 数据 表现 形式 受到 了 人 们 的 关注 。 我 们 通过 
和 XML 作对 比 来 进行 说 明 。 


从 YAML 的 全 称 (YAML Aint Markup Language) 可 以 看 出 它 不 是 标识 
语言 4 。XML 是 可 以 作为 数据 表现 形式 的 标识 语言 ， 而 YAML 只 是 表 
0 的 语言 。YAML 的 目的 仅仅 就 是 表示 数据 ， 和 XML 相 比 有 以 下 
可 





























4 软件 界 经 常 使 用 在 缩写 中 包含 自身 的 回归 名 称 ， 有 代表 性 的 例子 有 GNU (GNU's Not Unix ) 
和 PHP (PHP:Hypertext Processor) 。 











。 记述 简洁 ; 
。 容易 理解 ; 
。 专注 于 表示 数据 ， 不 用 费心 考虑 给 标签 起 名 字 。 
通过 实际 的 例子 我 们 残 能 感受 到 上 述 特征 。 图 5-5 是 有 name、job、kids 


3 个 项 目的 表 (Ruby 中 称 哈 希 表 ) ，kids 的 内 容 是 4 个 元 素 的 列表 
(Ruby 称 数组 ) 。 用 Ruby 的 数据 结构 表示 如 图 5-6 所 示 。 








name: Matsumoto 
job: Programmer 
kids: 

- Girl 

- Girl 


- Boy 
- Girl 











图 5-5 YAML 数据 示例 


"name"=>"Matsumoto"， 
"kids"=>[ "Girl1”， "Girl", "Boy", "Girl"], 
"job"=>"Programmer" 








图 5-6 YAML 数据 的 Ruby 表示 


Ruby 配置 了 标准 的 YAML 对 应 库 ， 可 以 直接 读 写 YAML 数据 (参见 
图 5-7) 。 


yaml = "..."” # 图 5-5 的 YAML 数据 字符 串 
p YAML.1load(yam]l) 











图 5-7 用 Ruby 读 取 YAML 数据 的 代码 





和 YAML 相提并论 的 另 一 种 数据 表现 形式 是 JSON (JavaScript Object 
Notation) ， 意 恩 是 JavaScript 对 象 表示 法 。 发 音 为 呆 J-song”。 顾 名 思 
义 ，JSON 是 直接 把 JavaScript 表示 对 象 的 程序 拿 来 记述 数据 了 。JSON 
是 合法 的 JavaScript 程序 ， 作 为 JavaScript 实现 可 以 生成 对 象 ?。 


5 从 没有 信赖 的 服务 器 传 来 的 JSON 数据 ， 在 执行 之 前 需要 对 数据 内 容 进 行 检查 。 否 则 可 能 引 
起 安全 问题 。 


图 5-5 中 的 YAML 数据 用 JSON 表示 的 话 ， 如 图 5-8 所 示 。 
{ 









































"name": "Matsumoto", 
"kids": ["Girl", "Girl", "Boy", "Girl"], 
"job": "Programmer" 


} 











图 5-8 JSON 数据 示例 


JSON 采用 的 对 象 表示 法 基本 和 Python 语法 相同 ， 和 YAML 也 有 很 多 
共通 之 处 。YAML 人 允许 将 表 的 项 目 名 用 引号 括 起 来 。 如 果 把 JSON 的 数 
据 传 给 YAML 解析 器 ， 一 般 都 能 正确 解释 。 


JSON 可 以 表现 下 面 6 种 数据 类 型 数值 (整数 及 浮 点 小 数 ) 、 字 符 
串 、 布 尔 值 ( 真 、 假 〉、 数 组 、 对 象 ( 键 和 值 的 表 〉 和 null。 


YAML 通过 扩展 可 以 表示 各 种 形式 的 数据 。 相 比较 ，JSON 束 显 得 太 简 
单 了 。 但 实际 上 ， 有 这 6 种 数据 类 型 应 该 束 足 够 了 。 








5.1.5 ”技术 要 素 之 三 : DHTIML 





DHTML， 动 态 HTML， 顾 名 思 义 ， 可 以 动态 地 对 HTML 进行 引用 、 修 
改 和 更 新 。 更 具体 地 说 ， 它 是 利用 装载 在 网 页 中 的 JavaScript， 使 用 
DOM (文档 对 象 模型 ) 对 网 页 数据 进行 操作 。 使 用 DOM 可 以 进行 下 述 
处 理 : 


。 取得 页 面 中 特定 标签 中 的 数据 ; 
。 修改 标签 的 数据 (文字 、 属 性 等 ) 








。 在 页 面 中 添加 标签 ; 
。 设 定 事件 处 理 程序 。 


5.1.6 ” ”JavaScript 技术 基础 








在 本 章 后 半 部 分 会 针对 Ajax 的 核心 技术 JavaScript 进行 详细 讲解 。 


JavaScript 是 以 对 象 为 基础 的 语言 。 也 就 是 说 ， 所 有 的 数据 都 可 作为 “对 
象 ” 进 行 统一 处 理 。 不 过 ， 它 不 具备 “类 ”这样 的 所 谓 普 通 面 癌 对 象 语言 
所 提供 的 功能 。 后 面 还 要 说 明 ， 即 使 去 除 JavaScript 面向 对 象 的 编程 功 
能 ， 它 也 可 以 作为 普通 的 结构 化 编程 语言 来 使 用 " 。 

6 JavaScript 的 专用 语 中 包含 了 “class”。 这 也 许 是 预 留 ， 以 便 将 来 可 能 导入 以 类 为 基础 的 面向 对 
象 编程 。 


只 要 具备 某 种 编程 语言 的 经 验 ， 就 会 很 容易 掌握 JavaScript 的 基础 。 下 
面 就 以 已 具备 某 种 语言 经 验 的 人 为 对 象 ， 对 JavaScript 最 基础 的 部 分 进 
行 讲解 

名 字 

区 分 大 小 写字 母 。 变 量 名 可 以 由 英文 数字、 下划线 (_) 及 美元 符号 
($) 组 成 。 

注释 

由 /开始 的 行 是 注释 语句 。 也 可 以 使 用 C 语言 中 以 /* 开始 和 以 */ 结尾 

的 注释 方式 。 

保留 字 

表 5-1 列 出 了 JavaScript 的 保留 字 ， 共 53 个 ， 对 于 “小 语言 "来 说 真 不 

少 。 这 些 保留 字 不 能 用 作 函 数 名 或 变量 名 。 其 中 一 些 词 目前 并 没有 使 

用 ， 是 为 将 来 可 能 的 使 用 而 预 留 的 ， 比 如 用 于 类 型 指定 的 一 些 词 ，byte 


、int 、float 等 。 







































































表 5-1 JavaScript 专用 语 一 览 
Je EE EE IE 


public throws 


int 





er | 


基本 语法 


JavaScript 的 基本 语法 和 C、Java 类 似 。 最 大 的 不 同 是 ，JavaScript 不 指 





运算 符 
和 C 语言 类 似 ， 优 先 顺序 也 基本 相同 。 
函数 定义 


JavaScript 的 特点 之 一 是 把 函数 作为 对 象 进行 处 理 。C 也 是 将 函数 作为 
对 象 处 理 ， 但 JavaScript 的 不 同 之 处 在 于 函数 对 象 有 闭 包 (closure)“， 
可 以 使 用 函数 外 面 的 局 部 变量 。 这 个 闭 包 功 能 成 为 了 JavaScript 面 问 对 
象 功 能 的 基础 。 


7 闭 包 是 Ruby 中 的 块 变 为 对 象 后 的 结果 。 它 的 优点 是 ， 只 要 闭 包 还 存在 ， 就 能 访问 闭 包 内 的 变 

















生成 函数 对 象 用 function 语句 ， 如 图 5-9 所 示 。 
function 函数 名 (参数 ) { 

函数 定义 
} 


var 变量 名 二 function (参数 ) { 


函数 定义 
} 








图 5-9 function 语句 的 使 用 方法 


在 两 个 例子 中 ， 后 者 生成 匿名 函数 对 象 ， 然 后 赋值 给 变量 ， 前 者 生成 的 
级 数 有 函数 名 ， 内 部 功能 是 一 样 的 。 


属性 


JavaScript 可 以 给 任意 的 对 象 粘 连 有 名 字 的 对 象 ， 这 称 为 对 象 的 属性 。 
访问 属性 时 使 用 “.”， 如 图 5-10 所 示 。 








o = new Object(); // 生成 对 象 
o.X = o.y = 15; // 设 定 对 象 属 | 
o.sum = 0.X + 0.y; // 访问 属性 














图 5-10 属性 的 使 用 方法 
5.1.7 原型 模式 的 面 同 对 象 编程 语言 
JavaScript 是 面 问 对 象 编程 语言 。 当 初 我 认为 它 只 是 容易 能 入 到 应 用 中 
的 一 种 简单 语言 ， 但 实际 上 它 具 备 了 完善 的 面 癌 对象 功 能 。 当 我 听 说 它 
具有 原型 模式 的 面 回 对 象 功 能 时 ， 吃 惊 地 差点 从 椅子 上 控 下 来 。 
如 果 具 有 原型 模式 的 面 癌 对 象 功能 的 话 ， 就 可 以 最 大 限度 地 消减 语言 本 
身 的 固有 功能 。 这 非常 适合 于 JavaScript 这 样 的 语言 。JavaScript 的 设计 
者 具有 相当 好 的 直觉 。 


以 类 为 中 心 的 传统 面 癌 对 象 编程 ， 是 以 类 为 基础 生成 新 对 象 。 类 和 对 象 
的 关系 可 以 类 比 成 铸模 和 铸件 的 关系 。 


而 原型 模式 的 面向 对 象 编 程 语 言 没 有 类 这 样 一 个 概念 8 。 
8 使 用 后 面 
需要 生成 新 的 对 象 时 ， 只 要 给 对 象 奶 加 属性 。 设 置 函 数 对 象 作 为 属性 的 
话 ， 就 成 为 方法 。 当 访问 对 象 中 不 存在 的 属性 时 ，JavaScript 会 去 搜索 
该 对 象 prototype 属性 所 指向 的 对 象 。 


JavaScript 利用 这 个 功能 ， 使 用 “委派 3” 而 非 “ 继 承 ” 来 实现 面向 对 象 编 



































讲 到 的 prototype.js 库 ， 可 以 生成 名 为 Class 的 功能 和 类 相同 的 对 象 。 








程 。 
9 委派 是 指 ， 把 对 于 某 个 对 象 的 调用 传送 到 另 一 个 对 象 上 。 











图 5-11 列举 了 一 个 用 JavaScript 实现 的 狗 的 例子 。 在 第 4 章 我 们 介绍 
过 用 原型 模式 的 Io 语言 实现 了 相同 的 程序 。 与 它 相 比 ， 图 5-11 中 的 程 
序 感觉 上 介 于 类 模式 和 原型 模式 之 间 。 虽 然 这 个 例子 没有 什么 实用 性 ， 

但 是 可 以 从 中 感受 到 JavaScript 的 面 问 对 象 编 程 的 氛围 。 


10 读者 可 能 把 对 用 狗 或 其 他 哺乳 动物 作 例 子 已 经 厌烦 了 。 这 一 点 我 也 有 同感 ， 但 是 也 举 不 出 更 
好 的 例子 。 


















































// 生成 Dog。... (A) 
function Dog(){ 
this.sit = function () {return "I'm sitting"} 





} 

// 从 Dog 生成 对 象 dog... (B) 
var dog = new Dog() 

// dog 是 狗 ， 所 以 能 sit... (C) 
alert(dog.sit()) 

// 生成 新 型 myDog...(D) 








function MyDog () {} 

// 指定 委派 原型 

MyDog.prototype = new Dog() 

// 从 MyDoc 生成 新 对 象 myDog ...(〈E) 
var myDog = new MyDog() 
document .write(myDog.sit()) 




















图 5-11 





We 


原型 模式 编程 的 示例 


我 们 从 程序 的 一 开始 仔细 来 看 。 〈A) 定义 了 狗 对 象 的 原型 函数 Dog 。 
让 人 吃惊 的 是 JavaScript 使 用 了 函数 对 象 来 代 蔡 类 。 函 数 对 象 起 到 了 对 
象 构造 器 的 作用 站 。 执 行 构造 器 的 处 理 时 ， 给 Ens 妃 加 新 的 属性 ， 从 
而 完成 对 象 的 初始 化 。 


11 构造 右 是 指 给 对 象 进行 初始 化 的 函数 。 


(B) 为 了 从 原型 生成 对 象 ， 使 用 了 new 语句 。 和 Java、C++ 是 类 似 
的 。 但 是 new 的 处 理 内 容 有 很 大 的 不 同 。 


原型 Dog 调用 new 完成 了 以 下 处 理 : 








1. 生成 对 象 ; 
2. 将 委派 原型 的 内 部 属性 (__proto _) 设置 为 Dog.prototype : 
3. 调用 函数 Dog ， 参 数 即 为 传递 给 new 时 的 参数 ; 
4. 返回 新 生成 的 对 象 。 
调 出 方法 。 取 出 对 象 dog 的 sit 属性 ， 执 行 这 一 属性 的 函数 对 
那么 ， 继 承 功 能 是 如 何 实现 的 呢 ? JavaScript 中 的 继承 风格 完全 变 了 。 


首先 ， 像 (D) 那样 定义 原型 函数 。 目 的 只 是 定义 一 个 子 类 ， 所 以 定义 
古 空白 的 。 子 类 上 自身 的 初始 化 由 MyDog 函数 完成 。 


然后 ， 把 想 要 继承 的 类 的 对 象 赋值 给 新 原型 对 象 的 prototype 属性 。 
请 注意 ， 要 赋 的 值 不 是 定义 父 类 功能 的 原型 函数 ， 而 必须 是 由 父 类 原型 
函数 生成 的 对 象 。 这 惑 是 所 说 的 原型 模式 。 


这 样 ， 对 由 新 定义 原型 生成 的 对 象 来 说 ， 当 访问 它 不 知道 的 属性 时 ， 怠 
会 委派 给 对 象 dog 。JavaScript 通过 这 种 方式 实现 了 类 模式 语言 中 相当 
于 继承 的 功能 。 


实现 继承 之 后 ， 其 他 是 类 似 的 。 〈E) 利用 new 运算 符 生 成 新 对 象 ， 并 
调用 方法 。 


这 样 ，JavaScript 用 较 简单 的 方式 可 以 实现 各 种 功能 ， 这 让 人 不 禁 想 到 
Lisp。 不 过 ， 不 能 否认 的 是 ，JavaScript 的 方式 过 于 简单 反而 使 记述 太 过 
杂 ， 它 不 能 像 Lisp 那样 用 宏 定义 隐藏 复杂 性 。 

















5.1.8 ”使 用 prototype.js 库 


为 了 克服 JavaScript 记述 过 于 繁杂 的 缺点 ，JavaScript 提供 了 进行 功能 扩 
展 的 一 些 库 。 在 这 里 介绍 prototype.js (Prototype JavaScript 


Framework) 。 


prototype.js 是 由 Sam Stephenson 开发 的 ， 是 可 以 在 MIT 许可 证 下 使 用 
的 犀 一 。 


12 从 http:/prototype.conio.net 中 可 以 得 到 。 











prototype.js 受到 了 Ruby 的 影响 ， 方 法 名 和 功能 都 和 Ruby 有 些 相 似 。 
Ruby 用 户 可 能 会 觉得 很 熟悉 。 实 际 上 ，Ruby on Rails 中 标准 地 附加 了 
prototype.js 库 ， 使 用 得 很 广泛 。 而 且 在 

script.aculo.us (http://script.aculo.us/ ) 和 Rico (http://openrico.org/ ) 中 
也 被 作为 JavaScript 的 函数 库 基础 来 使 用 。 





5.1.9 ”prototype.js 的 功能 
这 里 ， 我 们 简单 介绍 一 下 prototype.js 的 各 种 功能 。 
Ajax 功能 


prototype.js 支持 XMLHttpRequest 对 象 ， 可 以 对 HTML 进行 异步 更 
新 。 有 具体 来 说 ， 像 下 述 的 语句 就 可 以 获取 XMLHttpRequest 对 象 。 


new Ajax.Request(url,options) 


实际 上 ， 不 同 的 web 浏览 器 获取 XMLHttpRequest 对 象 的 方法 也 是 不 
同 的 ， 比 如 正 6.0 之 前 与 之 后 的 版 本 ， 或 者 同样 是 正 ， 因 为 使 用 的 
MSXML ActiveX 对 象 的 版 本 不 同等 ， 都 需要 对 它们 区 别 对待 。 
Ajax.Request 帮 有 我 们 屏蔽 了 这 些 与 代码 移植 相关 的 问题 。 


作为 prototype.js 的 Ajax 功能 ， 其 他 还 有 有 异步 更 新 Ajax.Updater 和 定期 
异步 更 新 Ajax.PeriodicalUpdater。 








Enumerable 





这 个 名 字 看 起 来 很 眼熟 吧 ? 它 是 Ruby 的 Enumerable 模块 在 JavaScript 
中 的 实现 。 包 括 了 each 、collect 、select 、detect 以 及 inject 
等 常见 的 方法 名 。prototype.js 对 原 有 的 Array 类 追加 了 Enumerable， 


并 扩展 了 它 的 功能 ， 所 以 对 Array 也 可 以 调用 这 些 方法 。 
使 用 prototype.js 的 Enumerable 时 需要 注意 以 下 几 点 : 
。 JavaScript 没有 块 8 的 概念 ， 可 以 把 函数 对 象 作 为 参数 来 代替 块 ; 


13 块 在 Ruby 中 可 以 追加 到 方法 调用 的 末尾 ， 作 为 代码 块 来 处 理 。 附 加 块 的 方法 在 被 调用 时 可 
以 调用 块 中 定义 的 内 容 。 


。 JavaScript 中 由 复数 单词 组 成 的 变量 名 ， 不 是 用 下 划 线 进行 连接 ， 
而 是 将 单词 的 首 字母 大 写 。 例 如 ,使 用 findAll 、sortBy ， 而 不 
是 find all、sort_by; 


。 方 法 名 中 不 能 使 用 “!” 和 “?”。 


Enumerable 提供 的 方法 如 表 5-2 所 示 ， 与 同名 的 Ruby 中 的 
Enumerable 方法 功能 相同 。 






































表 5-2 ”Enumerable 方法 一 览 


ey tm | 
nie aa | 


但 是 ， 它 提供 了 Ruby 中 不 存在 的 pluck 和 invoke 方法 。 它 们 的 功能 
如 下 : 
pluck 集合 了 各 要 素 指 定 的 属性 (参见 图 5-12) 。 


def ary.pluck(property) 


ary.map{|x| x[property]} 
end 











图 5-12 Ruby 中 对 于 pluck 的 定义 


invoke 集合 了 各 要 系 调 用 方法 时 得 到 的 结果 〈 人 参见 图 5-13) 。 


def ary.invoke(method, *args) 
ary.map{|x| x.send(method, *args)} 
end 





图 5-13 Ruby 中 对 于 invoke 的 定义 


Enumerable 方法 的 用 例如 图 5-14 所 示 。 


var ary = [1,2,3,4,5] 
var ary2 = ary.collect(function(x){ 
return x*2 


}) 
ary2.each(function (x) { 


document.write("item: "+x+"<br>") 


}) 








图 5-14 Enumerable 方法 的 示例 
使 用 Enumerable 的 功能 写 出 的 程序 会 让 Ruby 的 用 户 觉 得 容易 理解 。 
不 过 ， 有 时候 也 会 觉得 受到 了 语法 的 限制 ， 比 如 : “function 这 个 保留 
字 太 长 了 ”“ 小 括号 和 大 括号 怎么 混在 一 块 儿 了 了 呢 ”。 
其 他 扩展 功能 


prototype.js 的 扩展 功能 涉及 到 其 他 各 种 各 样 的 领域 ， 限 于 篇 幅 不 可 能 在 
这 里 全 部 进行 介绍 。 在 此 仅 说 明 其 中 一 些 重要 功能 。 


首先 ， 使 用 0bject .extend() 可 以 给 对 象 妃 加 功能 。 人 例如， 下面 是 给 
自己 生成 的 对 象 obj 追加 Enumerable 功能 : 


Object.extend(obj, Enumerable) 


或 者 ， 像 下 面 这 样 给 既 有 的 类 《函数 对 象 ) 奶 加 Enumerable 功能 : 





Object.extend(Array.prototype, Enumerable) 


Function 类 的 功能 也 得 到 了 扩展 。JavaScript 的 函数 对 象 作为 个 体 来 
说 ， 没 有 保存 处 理 对 象 的 信息 。 可 是 当 作为 回调 函数 使 用 的 时 候 ， 有 时 
候 希 望 函 数 对 象 能 够 保持 处 理 对 象 的 状态 。 为 了 实现 这 一 点 ， 
prototype.js 给 Function 类 追加 了 bind 方法 。 





前 面 说 过 Array 类 里 退 加 了 Enumerable 功能 ， 除 此 之 外 ，Array 类 
里 还 追加 了 其 他 一 些 Ruby 常用 的 方法 。 

另外 ，String 类 、Number 类 以 及 构成 DOM 用 的 一 些 类 群 里 也 追加 了 
方法 。 最 后 还 提供 了 一 些 函数 的 缩写 形式 。 

缩写 形式 的 函数 有 ， 从 id 取得 DOM 元 素 用 $() 、 取 得 Form 值 

用 $F() > 变换 成 Array 用 $A() 、 生 成 哈 西 值 用 $H() 、 生 成 范围 对 象 
用 $R() 等 。 


米 * * 


以 上 讲解 了 Ajax 的 概要 和 组 成 它 的 核心 技术 。Ajax 不 是 一 个 新 技术 ， 
但 是 它 很 好 地 组 合 了 既 有 的 JavaScript 和 DHTML 技术 ， 在 Web 浏览 器 
上 实现 了 丰富 的 客户 端 应 用 。 


Ajax 已 经 是 人 尽 篆 知 了 ， 成 为 了 Web 2.0 必 不 可 少 的 技术 。 


5.2 Ajax 和 JavaScript (后 篇 ) 


有 很 多 用 Ajax 制作 的 网 站 ， 使 用 起 来 都 很 方便 。 它 们 都 是 用 Web 2.0 
技术 实现 的 。 典 型 的 例子 就 是 Google Maps。Google Maps 的 特点 是 ， 

对 于 指定 的 地 图 ， 不 仅 是 可 以 显示 一 页 画 而 已 ， 对 地 图 进行 拖拉 操作 时 
滚动 得 很 平滑 ， 就 好 像 是 在 阅览 一 张 已 经 下 载 了 的 大 地 图 一 样 方便 。 


对 地 图 进行 放大 、 缩 小 也 很 方便 ， 好 像 不 是 用 Web 浏览 器 而 是 用 专门 
的 软件 来 操作 地 图 那样 好 用 。 在 Google Maps 之 前 的 地 图 网 站 没有 这 样 
改变 比例 尺 大 小 时 ， 都 要 在 点 击 之 后 等 竺 重新 
显示 辆 耐 。 


除了 地 图 之 外 ， 还 有 简单 的 工作 计划 管理 每 也 采用 Ajax 技术 的 网 站 ， 
此 类 站 点 有 很 多 很 多 。 例 如 ， 开 发 了 Ruby on Rails 的 37signals 做 的 
ToDo 管理 网 站 “Tada List”( 参 见 图 5-15) 。 
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图 5-15 ”可 以 管理 工作 计划 的 网 站 Tada List 


在 这 个 网 站 上 ， 添 加 了 工作 计划 (ToDo) 后 ， 就 会 显示 一 个 动画 ， 还 
可 以 通过 拖拉 操作 给 项 目 排序 。 


像 这 样 的 Ajax 网 站 ， 它 们 有 3 个 共同 特点 : 
1. 没有 Web 页 面 跳 转 ; 


2. 通过 有 异步 通信 实现 快速 反应 ; 








3. 实现 了 动画 和 拖 搜 等 单独 使 用 HIML 格式 无 法 表现 的 用 户 界 面 。 


构成 Ajax 的 基本 技术 早 在 1997 年 就 已 经 确立 下 来 了 。 到 2006 年 左 
右 ， 计 算 机 性 能 得 到 大 幅度 的 提高 ， 这 一 技术 开始 引 人 注 目 。 构 成 
DHTML 基础 的 JavaScript， 真 是 一 个 速度 不 怎么 快 的 语言 。 当 时 的 计 
算 机 大 概 难以 实现 足够 的 反应 速度 。 


得 葵 于 计算 机 的 性 能 提高 和 软件 开发 技术 的 进步 ， 某 种 技术 在 开发 出 来 
之 后 经 过 相当 长 一 段 时 间 才 得 到 普及 ， 诸 如 此 类 的 例子 并 不 少见 。20 
世纪 70 年 代 在 美国 施乐 公司 的 由 洛 阿 尔 托 研究 中 心 (PARC) 诞生 的 
GUI 技术， 花费 了 近 20 年 的 时 间 才 得 到 广泛 使 用 。 


和 我 有 洲 源 的 编程 语言 Ruby， 当 初 仅仅 用 于 生成 个 人 用 的 工具 ， 因 为 
这 样 在 执行 性 能 上 不 会 有 问题 。 但 是 最 近 儿 年 ， 大 规模 企业 系统 的 开发 
也 开始 采用 它 。 这 反映 了 随 着 计算 机 性 能 的 提高 ， 相 对 于 执行 性 能 

言 ， 开 发 效率 更 受到 重视 。 


在 我 身边 ， 不 断 听 到 有 人 想 在 业务 领域 更 多 地 使 用 Ruby， 让 我 越 来 越 
深切 地 感受 到 这 种 变化 趋势 。 


5.2.1 巧妙 使 用 DHTML 


Ajax 技术 的 核心 要 素 ， 前 面 已 经 介绍 过 有 JavaScript、XML 和 
DHTML。 下 面 ， 更 进一步 地 看 几 个 例子 。 


DHTML 亦 被 称 为 Ajax 的 本 质 技 术 。DHTML， 顾 名 思 义 就 是 可 以 动态 
地 访问 、 更 新 HTML。 具 体 地 说 ， 就 是 利用 啼 入 到 网 页 中 的 
JavaScript， 使 用 DOMI 操作 页 面 数据 。 


1 DOM 是 操作 HIML 和 XML 的 规范 。 特 点 是 把 HTML 和 XML 作为 树 结构 进行 处 理 。| 
W3C (World Wide Web Consortium ) 定义 的 DOM 规范 称 为 W3C DOM。 



































DHTML 是 在 JavaScript 中 使 用 W3C DOM， 将 HIML 作为 一 种 树 结构 

进行 操作 。 关 于 树 结 构 ， 我 们 稍 后 再 详细 说 明 。 更 进一步 讲 ， 通 过 对 用 

户 输 入 的 鼠标 点 击 等 事件 指定 相应 的 JavaScript 函数 ， 可 以 对 动作 
(action) 进行 定义 。 


通过 W3C DOM 让 JavaScript 操作 HTML 的 例子 见 图 5-16。 将 图 5-16 


的 HTML 文件 用 Web 浏览 器 打开 ， 会 显示 出 “请 点 击 ” 的 字符 串 。 点 击 
字符 串 之 后 ，<div id="result"></div> 内 的 文字 发 生 改 变 。 


<html><head><title>JavaScript 举例 </title> 

<script type="text/javascript"> 

<1-- 

function displayOnClick() { 
var result = document .getElementById("result") .childNodes[6]; 
result.nodeValue = "已 经 点 击 了 "; 





} 
// --> 

</script></head> 

<body> 

<a onclick="displayOnClick()"> 请 点 击 </a><br> 
<div id="result"> 显 示 会 变化 </div> 

</body> 

</html> 


























图 5-16 嵌入 了 JavaScript 的 HTML 示例 


图 5-16 的 后 半 部 分 ， 对 标签 a 的 onclick 属性 进行 指定 。 标 签 范围 内 
的 文字 被 点 击 时 执行 指定 的 JavaScript 的 displayOnClick() 函数 。 


函数 displayOnClick() 使 用 id 取出 页 面 中 相当 于 div 部 分 的 节点 
(getElementById ) ， 通 过 改变 子 节点 的 值 来 更 新 字符 串 。 节 点 的 概 
念 将 在 后 面 和 树 结 构 一 起 说 明 。 


前 半 部 分 script 标签 里 用 <1-- 和 --> 围 起 来 的 HTML 注释 是 JavaScript 
的 代码 ?。 


2 注释 部 分 最 后 一 行 的 开头 加 上 /， 是 为 了 避免 浏览 器 把 --> 也 解释 成 JavaScript。 这 种 做 法 是 为 
了 让 不 支持 JavaScript 的 Web 浏览 器 不 至 于 直接 把 JavaScript 代码 显示 出 来 。 不 过 ， 这 里 介绍 
的 HIML 文件 都 必须 使 用 那些 支持 JavaScript 的 Web 浏览 器 。 在 后 面 的 例子 中 我 们 就 不 再 加 // 
J 了 。 


像 这 样 通过 使 用 DHTML， 服 务 器 端 不 需要 准备 CGI 就 可 以 实现 动态 网 
页 。 


~ 















































图 5-16 的 HTML 被 读 取 之 后 ， 内 部 会 生成 如 图 5-17 所 示 的 树 结构 。 树 
结构 中 ，document 相当 于 树 根 ，div 称 为 节点 。 














Script 





请 点 击 
图 5-17 显示 图 5-16 数据 的 树 结构 


使 用 JavaScript 对 树 结 构 进 行 操作 就 是 DHTML 的 本 质 。 因 此 JavaScript 
提供 的 W3C DOM API 有 如 下 的 功能 : 








。 获取 document 节点 ; 
。 获取 和 更 新 标签 数据 〈 包 括 文 字 、 类 型 以 及 属性 等 ) ; 
。 追加 document 节点 ; 


。 设 定 事件 处 理 程序 (event handler) 3 。 
3 事件 处 理 程序 是 指 事 件 发 生 时 执行 的 程序 。 











5.2.2 ”获取 document 节 点 


利用 DOM 的 API 对 HTML 文件 进行 操作 ， 如 图 5-17 所 示 ， 首 先 从 
DOM 树 中 取出 节点 。 可 以 利用 下 面 两 个 函数 取出 节点 。 


getElementById(name) 








getElementById() 将 得 到 标签 id 为 name 的 节点 对 象 。 


getElementsByTagName (name) 





getElementsByTagName() 将 得 到 标签 名 字 为 name 的 标签 节点 。 一 般 
的 文件 中 会 存在 多 个 同样 的 节点 ， 所 以 getElementsByTagName() 将 
返回 节点 对 象 数组 。 当 取得 第 n 个 项 目 时 ， 在 数组 后 附加 [n ]。 


5.2.3 ”获取 和 更 新 标签 数据 


获取 节点 对 象 之 后 ， 通 过 调用 对 象 的 方法 ， 该 写 对 象 的 属性 等 就 能 够 获 
这 些 数据 包括 标签 信息 、 类 型 、 文 字 和 事件 处 理 程 
子 等 。 


例如 ， 标 签 的 类 别 由 tagName 属性 来 得 到 : 


node .tagName 


也 可 以 变更 决定 标签 显示 方式 的 style 属性 。 设 定时 先 读 出 节点 的 
style 属性 ， 然 后 设 定 style 对 象 的 属性 值 。 比 如 ， 想 让 node 市 点 看 
不 见 的 话 ， 可 以 进行 以 下 的 设 定 : 


node.style.visibility = 'hidden' 


style 对 象 使 用 了 和 CSS 的 style 属性 相同 的 名 字 。 不 过 两 者 属性 名 
字 的 写法 有 一 定 的 变化 。 有 具体 说 ， 就 是 去 掉 “-”， 将 单词 的 首 字 母 换 成 

大 写 。 例 如 ，CSS 属性 中 的 border-style ， 在 JavaScript 中 该 属性 名 
称 变 为 borderSstyle 。 


改变 标签 中 的 文字 内 容 ， 可 以 从 标签 中 取出 对 应 于 文字 部 分 的 节点 〈 文 
字 节 点 ) ， 然 后 指定 该 节点 的 nodeValue 属性 。 图 5-16 的 HTML 就 使 
用 了 这 个 方法 ， 取 出 的 div 标签 的 最 初 节点 束 是 文字 节点 。 


5.2.4 设 定 事 件 处 理 程序 


指定 对 应 于 某 一 事件 的 事件 处 理 程序 有 两 个 方法 ， 其 中 之 一 是 如 图 5-16 
那样 指定 标签 的 属性 。 图 5-16 是 把 JavaScript 函数 名 设置 为 a 标签 的 
onclick 属性 值 来 指定 事件 处 理 程序 。 


另 一 个 方法 是 把 函数 设置 为 JavaScript 对 象 的 属性 。 有 具体 如 下 面 的 形 


式 : 



































对 象 .事件 处 理 程序 名 = function() { 




















在 程序 中 指定 事件 处 理 程序 或 者 奉 换 事件 处 理 程序 的 时 候 ， 用 第 2 个 方 
法 更 方便 。 图 5-18 是 对 图 5-16 进行 的 修改 ， 在 事件 处 理 程序 中 再 次 蔡 
换 了 事件 处 理 程序 。 


<html><head><title>JavaScript 举例 </title> 
<script type="text/javascript"> 
function displayOnClick() { 
var result = document .getElementById("result") .childNodes[6]; 
result.nodeValue = "已 点 击 "; 
var atag = document.getElementById("alink"); 
atag.onclick = function() { 
result.nodeValue = "已 返回 "; 
atag.onclick = displayOnClick; 
} 
} 
</script></head> 
<body> 
<a id="alink" onclick="displayOnClick()"> 请 点 击 </a><br> 
<div id="result"> 显示 会 改变 </div> 
</body> 
</html> 





























图 5-18 ”通过 属性 设 定 事件 处 理 程 序 


因为 改写 了 点 击 这 个 事件 处 理 程序 ， 和 图 5-16 不 同 的 是 ， 每 次 点 击 都 
会 改变 显示 的 文字 。 


JavaScript 可 以 访问 函数 外 面 的 变量 ， 内 部 的 事件 处 理 程序 函数 可 以 省 
略 获取 result、atag 等 节点 对 象 的 处 理 。 


W3C DOM 规定 的 事件 处 理 程 序 名 如 表 5-3 所 示 。 
表 5-3 ”事件 处 理 程序 一 览 
ET 









































Er 


onblur 焦点 丢失 时 


onchange 表单 内 容 改 变 时 
ol 





双击 时 


获取 焦点 时 




















离开 按键 时 
鼠标 按钮 按 下 时 


鼠标 光标 移动 时 


鼠标 光标 离开 时 


鼠标 按钮 松 开 时 



































5.2.5 ”追加 标签 节点 


至 此 ， 我 们 说 明了 如 何 变 更 树 结构 中 既 有 的 属性 ，W3C DOM 还 可 以 对 
树 结构 本 身 进行 操作 。 


用 appendChild 方法 可 以 为 节点 对 象 退 加 节点 ， 消 除 节 点 用 
removeChild 方法。 图 5-19 的 HIML 文件 ， 每 次 按键 点 击 都 会 增加 一 
个 文字 节点 。 点 击 按键 之 后 ， 在 末尾 就 追加 了 新 的 文字 。 














<html><head><title>JavaScript 范例 </title> 

<script type="text/javascript"> 

function appendText() { 
var body = document .getElementsByTagName("body")[6] 
var p = document.createElement("p") 





p.appendChild(document .createTextNode(" 已 点 击 。") ) 
body.appendChild(p) 


</script></head> 

<body> 

<input type="button” value=" 点 击 ! " onclick="appendText()"/> 
</body> 

</html> 








图 5-19 可 以 追加 文字 节点 的 HIMEL 


5.2.6 ”本 地 HTML 应 用 


好 了 ， 采 用 以 上 讲解 的 DHTML 功能 和 JavaScript 编程 ， 只 用 HTML 就 
可 以 完成 简单 的 web 应 用 。 


图 5-20 显示 的 程序 是 仅 用 HTML 实现 的 ToDo 应 用 程序 。 将 图 5-20 的 
内 容 保 存在 文件 中 。 比 如 保存 为 /tmp/todo.html， 那 么 URL 就 是 
file:///tmp/todo.html。 用 Web 浏览 器 读 入 的 话 显示 出 如 图 5-21 那样 的 画 
面 。 


<html><head><title>ToDo</title> 
<script type="text/javascript"> 
var todos = new Array() 
function focusInput() { 
var itext = getElementById("itext") 
itext.value = "" 
itext.select() 
itext.focus() 
} 
function updateToDo() { 
var list = "<table>" 
for (i=6; ix<todos.length; i++) { 
list = list + "<tr><td><input type='checkbox' onclick='checkToDo(" + i 
list = list + '<td><div>'+ todos[i][1] + '</div></td></tr>' 
} 
list = list + "</table>" 
document.getElementById("list").innerHTML = list 
focusInput() 
} 
function addToDo() { 
var input = document.getElementById("itext").value 
if (input == "")return 











todos[todos.length]= new Array(false, input) 


updateToDo() 
} 
function addToDoTxt(event) { 
var kc = (event.keyCode || event.which); 
var v = document.getElementById("itext").value 
if (kc == 13 && v != "") { 
addToDo() 
} 
} 


function checkToDo(pos) { 
for (i=pos; i<todos.length-1; i++) { 
todos[i]= todos[i+1] 
} 
todos.1length-- 
updateToDo() 
} 
</script></head> 
<body> 
<Uul> 
<1i> 输 入 文字 后 按 登 录 按钮 
<1i> 完 成 后 请 点 击 复 选 杠 
</ul> 
<input id="itext" type="text" value= 











onkeypress="addToDoTxt(event)"/> 


<input type="button"” value=" 登 录 " onclick="addToDo()"/> 
<div id="list"></div> 

</body> 

</html> 





图 5-20 只 用 HTML 记述 实现 的 ToDo 应 用 


ropo - Windows Internet Explorer 
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。 征 入 文字 后 按 登 录 按 和 
。 完 网 后 请 点 击 复 选 谍 


LE3 





图 5-21 ToDo 应 用 的 初始 画面 


在 文字 栏 中 输入 预定 项 目 ， 按 下 键 之 后 退 加 项 目 ， 成 为 图 5-22 的 样 
子 。 完 成 预定 项 目 之 后 ， 单 击 复 选 枉 ， 消 除 项 目 。 








。 输 人 浆 字 去 按 管 好 搞 馈 
。 完 战 后 清点 而 夏 沪 框 
Ea 
口 日 经 LimrJ 原 码 


口 半 国 出 差 报 寺 





图 5-22 在 图 5-21 中 追加 了 项 目 之 后 的 样子 


虽然 这 是 个 非常 简单 的 程序 ， 但 它 能 把 预定 项 目 退 加 到 列表 里 ， 完 成 之 
后 可 以 消除 掉 ， 已 经 提供 了 作为 ToDo 应 用 所 应 具备 的 最 基本 功能 。 


可 是 ， 此 应 用 仅仅 把 信息 保存 在 Web 浏览 器 的 网 页 中 ， 浏 览 器 终止 之 
Se 了 。 重 置 页 面 也 会 消 掉 信息 ， 所 以 基本 上 没有 实 
用 性 。 


5.2.7 ”和 服务 器 间 的 通信 


使 用 DHTML 之 后 ， 对 于 较 简 单 的 应 用 ， 在 客 己 闪 束 能 够 实现 。 但 是 ， 
客户 端 无 法 保存 数据 ， 所 以 保存 和 获取 数据 时 需要 和 服务 器 进行 通信 。 


Ajax 是 利用 XMLHttpRequest 对 象 来 进行 异步 通信 的 。 束 像 之 前 讲述 
的 ， 不 需要 网 页 跳 转 ， 在 后 台 就 可 以 进行 通信 。 


可 是 ， 在 获取 XMLHttpRequest 的 阶段 ，JavaScript 编程 常常 会 碰 到 兼 
容 性 问题 。 


世界 上 有 多 种 Web 浏览 器 。 能 够 文 持 JavaScript 的 有 代表 性 的 浏览 器 
有 : Internet Explorer、Firefox、Opera、Safari 和 Google Chrome 等 。 而 
且 ， 不 同 的 web 浏览 器 获取 XMLHttpRequest 对 象 的 方法 也 各 不 相 
同 。 因 此 ， 获 取 XMLHttpRequest 对 象 时 有 必要 像 图 5-23 那样 进行 区 


A 


function GetXmlHttpReq() { 








var xmlhttp; 
if(XMLHttpRequest) { 
return new XMLHttpRequest(); 
} 
else if (window.ActiveXObject) { 
try { 
return new ActiveXObject("Msxml2.XMLHTTP" ); 
} catch (e) { 
try { 
return new ActiveXObject("Microsoft.XMLHTTP"); 
} catch (e) { 
return false; 








图 5-23 取得 XMLHttpRequest 的 JavaScript 代码 


如 图 5-23 所 示 ， 问 题 在 于 Internet Explorer 和 其 他 的 Web 浏览 器 都 不 一 
样 ， 非 党 麻烦 。 


5.2.8 ”使 用 Prototype.js 的 优点 
使 用 Prototype.js 的 话 ， 不 需要 那样 国 烦 的 记述 。 


使 用 Prototype.js 获取 XMLHttpRequest 对 象 的 方法 如 下 。 


req = Ajax.getTransport() 


和 图 5-23 相 比 ， 这 样 就 简单 多 了 。 男 外 ， 经 常 使 用 的 
getElementById() 函数 在 Prototype.js 中 变 成 了 $() 的 形式 ， 还 有 其 
他 很 多 能 让 程序 变 短 的 技巧 。 

下面 的 程序 示例 使 用 了 Prototype.js。 
5.2.9 ”在 服务 器 上 保存 数据 


现在 看 看 如 何在 服务 器 上 保存 数据 。 在 服务 器 上 保存 数据 的 Ruby 程序 





如 图 5-24 所 示 。 


#! /usr/bin/env ruby 
require 'cgi' 
cgi = CGI.new 
file = "todo.txt" 
if cgi.key?("add") 
data = cgi["add"] 
open(file, "a") do |f| 
f.flock(File: :LOCK_ EX) 
f.print format("%d%d",Time.now.to i,rand(16)), ":" # id 
f.print data, "\n" 
end 


elsif cgi.key?("del") 
id = cgi["del"] 
open(file, "r+") do |f| 
f.flock(File: :LOCK_ EX) 
data = f.readlines.delete if do |line| 


line =~ /^#{id}:/ 
end.join 
f.rewind 
f.print data 
f.truncate f.pos 
end 
else 
open(file, "r") do |f| 
f.flock(File: :LOCK_ SH) 
data = f.read 
end 
end 
print cgi.header("content-type"=>"text/plain", "charset"=>"UTF-8") 
print data 








图 5-24 保存 数据 的 脚本 示例 


处 理 内 容 较 简单 ， 如 果 参 数 是 add 的 话 ， 就 把 内 容 追 加 到 数据 文件 中 ， 
如 果 参 数 是 del 的 话 ， 就 仙 除 指定 的 项 目 ， 其 他 情况 下， 返回 数 奖 文 件 


把 图 5-24 的 内 容 保 存 到 data.rb 文件 中 ， 与 HTML 文件 保存 在 同一 路 径 
下 。 另 外 ， 如 图 5-25 所 示 ， 需 要 在 .htaccess 文件 中 把 .rb 文件 妃 加 为 
CGI 执行 的 设置 。 这 里 ，HTML 文件 名 是 index.html。 


Options +ExecCGI 
AddHandler cgi-script .rb 
DirectoryIndex index.html 











图 5-25 ”在 .htaccess 文件 中 追加 的 内 容 


现在 来 利用 这 个 服务 器 端的 脚本 程序 和 Prototype.js， 在 ToDo 应 用 中 亿 
加 保存 数据 的 功能 。 


最 初 需要 装载 Prototype.js。 在 ww 中 JavaScript 代码 部 分 前 面 加 入 图 
5-26 所 示 的 工行 内 容 。 另 外 不 要 忘记 HIML 文件 和 Prototype.js 需要 保 
存在 同一 路 径 下 4 。 


4 Prototype.js 的 下 载 地 址 是 http://www.prototypes.org 。 本 文 的 脚本 在 1.6.0.3 版 本 上 完成 了 动作 
确认 。 











<script type="text/javascript" src="prototype.js"></script> 





图 5-26 ”装载 Prototype.js 时 的 记述 


下 面 将 退 加 数据 的 加 载 和 保存 功能 。 从 现在 开始 ， 使 用 CGI 通过 HTTP 
服务 器 进行 处 理 。 


具体 地 说 ， 是 将 图 5-20 给 出 的 HTML 文件 中 部 分 的 
updateToDo() 、addToDo() 、checkToDo() 函数 替换 成 图 5-27 中 给 
出 的 同名 函数 。 


function updateToDo() { 
new Ajax.Request("data.rb", { 
onComplete: function(req) { 
var lines = req.responseText.split("\n") 
todos = new Array() 
lines.each(function(line) { 
if (line != "") { 
var chunks = line.split(":") 
var id = chunks.shift() 
var item = chunks.join(":") 
todos.push(Array(false,item,id)) 
} 





]) 


var list = "<table>" 

for (i=6; i <todos.length; i++) { 
ist = list + "<tr><td><input type="'checkbox'onclick="'checkToDo(" + 
jist = list + '<td><div>'+ todos[i][1] + '</div></td></tr>' 

} 

list = list + "</table>" 

$("1ist") .innerHTML = list 

focusInput() 


}) 
} 


function addToDo() { 
var input = $("itext").value 
if (input == "") return 
var data = "add="+encodeURIComponent(input) 
new Ajax.Request("data.rb", {postBody: data}) 
updateToDo() 

} 

function checkToDo(id) { 
var data = "del="+id 


new Ajax.Request("data.rb", {postBody: data}) 
updateToDo() 


} 








图 5-27 使 用 了 Prototype.js 的 数据 加 载 和 保存 


图 5-27 中 对 功能 进行 改善 的 本 质 内 容 是 各 函数 中 出 现 了 一 次 
Ajax.Request 。Ajax.Request 的 使 用 方法 如 下 所 示 。 





new Ajax.Request(url, options) 





url 是 请 求 的 对 象 地 址 ， 实 际 的 动作 由 options 中 的 指定 的 哈 希 值 来 
控制 。options 中 可 以 指定 的 内 容 如 表 5-4 所 示 。 


表 5-4 Ajax.Request 的 options 指 定 的 内 容 
名 字 说 了 明 


asynchronous 是 否 同 期 (true/false) ， 缺 省 是 true 








请 求 的 方法 Cger7post)， 卫 从 是 pos 


onComplete 数据 获取 完毕 时 调用 的 函数 ， 参 数 是 XMLHttpRequest 对 象 


em | AR 





连接 失败 时 调用 的 函数 
ET 医生 


parameters 传 给 请 求 对 象 的 参数 〈 字 符 串 ) 


POST 时 的 内 容 体 “字符 昌 ) 























ToDo 数据 加 载 时 〈 图 5-27 的 updateToDo 函数 ) ， 指 定 了 
onComplete 函数 ， 这 样 读 完 数据 之 后 将 调用 指定 的 函数 。JavaScript 可 
以 简单 地 编写 匿名 函数 ” ， 所 以 不 用 总 是 考虑 函数 名 ， 比 较 方 便 。 此 函 
数 按 如 下 的 顺序 进行 处 理 : 


5 匿名 函数 是 指 没 有 指定 名 字 的 函数 。JavaScript 通过 使 用 未 命名 的 function 语句 ， 可 以 不 用 
定义 函数 ， 而 把 函数 当做 值 来 使 用 。 


1. 取出 XMLHttpRequest 对 象 的 responseText 属性 中 读 取 的 数据 
《字符 串 ) ; 
2. 将 数据 按 行 分 制 ， 更 新 todos 变量 。Prototype.js 提供 了 split 
、each 等 Ruby 类 的 方法 ， 很 有 用 ; 
3. 调用 updateToDo() 函数 ， 更 新 ToDo 列表 。 


上 面 的 处 理 是 异步 进行 的 ， 惑 算 获 取 数 据 人 花费 了 很 长 时 间 ，ToDo 应 用 
在 数据 为 空 时 也 能 够 执行 动作 ， 当 数据 全 部 读 入 时 再 更 新 画面 。 


5.2.10 ”Web 应 用 的 脆弱 性 


实际 上 ， 这 个 ToDo 应 用 还 有 不 少 麻 烦 问题 ， 比 如 XSS〔 跨 站 点 脚本 ) 
问题 。 像 现在 的 代码 ， 输 入 ToDo 的 项 目 时 如 果 内 容 里 包含 有 HTML 标 
签 的 话 ， 就 会 解释 成 HIML 内 容 。 一 个 人 使 用 的 情况 下 还 没什么 问 

题 ， 若 是 不 确定 的 多 数 人 使 用 Web 应 用 的 话 ， 不 仅 可 能 会 随便 加 入 链 
接 、 图 像 等 ， 还 有 可 能 导致 使 用 JavaScript 的 深层 问题 。 


为 了 避免 这 样 的 事情 发 生 ， 有 必要 将 HTML 标签 转换 为 其 他 安全 的 表 









































示 文 字 。 这 里 最 简单 的 方法 是 利用 Prototype.js 的 HTML 转 义 功能 ， 具 
体 是 把 函数 updateToDo() 中 图 5-28 中 (A) 的 部 分 改正 成 (B) 那 
样 。 


像 这 样 ， 对 于 各 种 人 都 使 用 的 Web 应 用 而 言 ， 有 很 多 地 方 都 需要 特别 


VY 
十 导 。 


list + '<td><div>'+ todos[i][1i] + '</div></td></tr>' 


list + '<td><div>'+ todos[i][1].escapeHTML() + '</div></td></tr>' 











图 5-28 updateToDo() 函数 的 XSS 对 应 : 把 (A) 部 分 改写 成 (B) 
5.2.11 使 用 JavaScript 的 感觉 


笔者 平 前 没有 使 用 JavaScript 编程 。 为 了 这 次 的 讲解 ， 相 当下 功夫 地 进 
行 了 学 习 。 对 于 我 来 说 ， 己 经 好 久 没 用 Ruby 以 外 的 动态 语言 进行 编程 
了 ， 筑 得 非常 有 趣 。 既 然 学 了 ， 在 这 里 就 总 结 一 些 使 用 JavaScript 的 感 
匈 


YA 
LO 





作为 动态 语言 名 副 其 实 

因为 有 闭 包 这 样 的 匿名 函数 ， 可 以 较 简 单 地 实现 Ruby 里 的 块 状 操作 。 
尽管 像 function 这 样 的 专用 语 太 长 ， 感 觉 有 点 麻烦 。 前 面 介 绍 过 继承 的 
实现 有 些 繁杂 ， 但 JavaScript 编程 一 般 不 会 出 现 继承 ， 所 以 没有 在 意 。 
DHTML 比 想象 的 更 有 趣 


把 HTML 作为 数据 进行 操作 ， 改 变 属 性 或 是 退 加 节点 等 都 相当 有 趣 。 
特别 是 可 以 直接 看 到 操作 的 结果 ， 感 觉 很 直观。 








Prototype.js 也 不 错 


Prototype.js 能 够 把 单独 使 用 JavaScript 编程 时 繁杂 的 部 分 给 屏 菩 挤 。 作 
为 Ruby 编程 语言 的 作者 ， 我 也 很 高 兴 Prototype.js 包含 了 Ruby 里 的 
Enumerable 和 String 功能 。 


调试 比较 态 烦 


JavaScript 里 就 算 有 程序 错误 ，Web 浏览 器 也 不 会 显示 任何 信息 。 想 要 
确认 程序 的 状态 ， 只 能 多 次 使 用 alert() 。alert() 可 以 弹出 一 个 消 
县 窗口 ， 显 示 作 为 参数 接收 的 字符 串 。 类 似 于 Ruby 程序 中 使 用 print 
的 调试 方法 。 


Firefox 提供 了 Firebug 的 扩展 功能 ， 对 于 JavaScript 的 调试 非常 有 用 。 
在 本 书 这 次 的 写作 中 也 起 到 了 很 大 的 帮助 。 


兼容 性 的 问题 


各 个 Web 浏览 器 相互 独立 地 实现 了 JavaScript 解释 器 。 虽 然 JavaScript 
有 标准 规格 (ECMA-262)， 但 在 动作 细节 上 各 有 不 同 〈 特 别 是 Internet 
Explorer) 。 这 次 介绍 了 的 获取 XMLHttpRequest 对 象 的 方法 就 是 一 个 
例子 。 


我 有 一 位 朋友 的 业务 是 做 Ajax 应 用 开发 。 按 照 他 的 说 法 ，Ajax 开发 最 
难 的 一 点 就 是 Web 浏览 器 间 JavaScript 的 兼容 性 问题 。 不 同 的 web 浏 
览 器 都 各 上 自 独 立 实现 了 JavaScript 的 处 理 程序 。 虽 说 有 标准 规格 ， 细 节 
部 分 很 多 都 不 兼容 。 在 Firefox 和 Opera 上 能 够 执行 ， 在 Internet 
Explorer 上 却 无 法 执行 ， 类 似 情 况 经 常 出 现 ， 让 人 十 分 头疼 。 饮 水 思 
源 ， 大 家 在 使 用 Ajax 应 用 时 ， 也 许 应 该 想起 那些 因为 兼容 性 问题 而 无 
法 入 眠 的 技术 人 员 。 


名 字 的 重要 性 


在 美国 ， 人 们 相信 一 个 说 法 : 所 有 人 和 物 都 有 名 有 姓 ， 知 道 了 他 的 名 
字 就 可 以 控制 他 。 因 此 ， 他 们 会 对 目 己 的 真实 姓名 保密 ， 仅 仅 对 家 人 
或 是 真正 能 够 信赖 的 人 才 公 开 。 对 外 只 告诉 名 。 这 么 一 说 ， 尼 休 拉 
， 勒 古 因 的 《加 德 战 记 》 就 是 这 么 做 的 呢 。“ 加 德 " 是 主人 公 的 真实 名 
字 ， 在 故事 中 基本 没有 使 用 ， 一 般 总 叫 他 为 “ 恬 子 ”。 


有 时 候 会 觉得 这 种 说 法 在 某 种 程度 上 确实 有 道理 。 也 束 是 说 ， 事 物 名 
字 具 备 一 种 说 不 出 原因 的 神秘 支配 力量 。 


比如 ， 本 章 讲解 的 Ajax 也 是 这 样 。Ajax 本 来 只 是 多 种 技术 的 组 合 ， 
而 且 没 有 什么 新 奇 之 处 ， 只 是 自然 地 组 合 在 一 起 。 但 是 ，Ajax 却 风靡 




















一 时 ， 改 变 了 之 后 的 网 站 形象 。 最 近 没 怎么 听 到 关于 Ajax 的 说 法 ， 
主要 是 因为 网 站 使 用 Ajax 已 经 被 认为 是 常识 性 的 问题 。 


我 个 人 感觉 ，Ajax 成 功 的 原因 不 仅仅 因为 单纯 的 技术 组 合 ， 还 在 于 名 
字 有 魅力 。 名 字 确 实 很 重要 。 


Ruby 也 有 同样 的 感觉 。 我 在 1993 年 开始 开发 Ruby， 仿 造 Perl 取 了 
Ruby《 红 宝石 ) 的 名 字 。 正 是 因为 这 个 短 而 美丽 的 名 字 ， 才 能 够 维持 
长 时 间 的 开发 动力 ， 让 如 此 多 的 用 户 对 Ruby 语言 感 兴趣 。 


因此 ， 我 设计 上 的 一 个 座右铭 就 是 名 字 很 重要 。 设 计 任 一 功能 时 ， 我 
首先 会 着 重 考 虑 它 的 名 字 。 在 我 作为 编程 人 员 的 生涯 中 ， 名 字 好 的 功 
能 都 成 功 了 ， 而 名 字 不 太 好 的 功能 事后 往往 让 人 后 悔 。 


实际 上 ， 对 于 有 人 提出 退 加 Ruby 功能 的 要 求 也 经 党 看 名 字 。 拒 绝 时 
的 回答 是 : “我 们 明白 这 个 要 求 。 知 道 丰 有 此 功能 会 更 方便 。 但 是 不 
喜欢 这 个 名 字 。 生 有 一 个 好 名 字 我 们 惑 会 采用 。? 而 且 ， 对 于 因为 不 
喜欢 名 字 而 没有 实现 的 功能 ， 之 后 我 也 没有 党 得 后 悔 。 


也 许可 以 这 么 来 考虑 吧 。 起 了 一 个 合适 的 名 字 本 刁 就 意味 着 功能 设计 
得 正确 。 反 过 来 ， 起 了 不 好 的 名 字 说 明 设 计 者 自己 也 没有 完全 理解 应 
完成 什么 样 的 功能 。 我 个 人 认为 ， 为 一 个 功能 起 个 合适 的 名 字 束 已 经 
完成 了 八成 的 工作 。 


请 大 家 试 斌 起 名 字 更 加 用 心 些 会 如 何 ? 也 许 下 一 个 项 目 成 功 的 秘密 就 
在 于 此 呢 。 
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示 6 于 Ruby on Rails 


6.1 MVC 和 Ruby on Rails 


MVC 是 设计 GUI 程序 时 的 设计 模式 1 之 一 。 名 字 来 自 于 模型 

(Model) 、 视 图 (View) 和 控制 (Controller〉 三 个 单词 的 首 字母 。 大 
部 分 设计 模式 仪 决定 程序 某 一 部 分 的 构成 ， 而 MVC 决定 了 应 用 程序 的 
整体 部 分 ， 有 时 候 也 被 称 为 架构 模式 。 


1 设计 模式 是 软件 设计 ， 特 别 是 在 以 面 癌 对 象 为 基础 的 软件 设计 里 经 常 使 用 的 编程 用 语 。 最 简 
单 的 例子 就 是 for 循环 。 






































MVC 最 早 是 作为 编程 语言 Smalltalk 带 窗口 (GUI) 的 应 用 架构 指针 而 
诞生 的 。 据 说 ， 发 明 MVC 的 是 当时 美国 施乐 公司 下 属 的 帕 洛 阿尔 托 研 
究 中 心 (PARC) 的 挪威 人 Trygve Mikkjel Heyerdahl Reenskaug” 。 
Simula 的 开发 者 是 Kristen Nygaard 〈 挪 威 ) ，C++ 的 开发 者 是 Bjarne 
Stroustrup (丹麦 ) ， 在 面向 对 象 开 发 的 历史 上 ， 北 欧 人 贡献 卓著 3 。 


2 Reenskaug 发 明 MVC 大 约 是 在 1978 年 。 最 初 被 叫做 
MVCE (Model:View:Controller-Editor) , http://heim.ifi.uio.no/trygver/themes/mvc/mvc-index.html 

















3 每 年 都 在 丹麦 举行 Java 和 面向 对 象 的 会 议 JAOO。 我 和 他 们 3 人 就 是 在 那里 认识 的 。 我 参加 
过 两 次 这 个 会 议 ， 每 次 都 收获 颇 丰 。 只 可 惜 离 日 本 太 远 ， 出 席 会 议 不 大 方便 。 


6.1.1 模型 、 视 图 和 控制 的 作用 
MVC 中 的 模型 ， 是 表现 窗口 中 表示 内 容 (信息 
只 是 信息 (名 字 、 数 值 等 抽象 的 信息 ) ， 它 不 和 


息 的 信 恩 O 


视图 ， 代 表 将 模型 中 包含 的 信息 在 窗口 中 进行 表示 的 对 象 。 视 图 知道 要 
表示 的 模型 的 信息 ， 而 模型 一 般 不 知道 要 表示 自己 的 视图 信息 。 


控制 ， 是 从 用 户 端 接受 输入 ， 对 视图 和 模型 进行 操作 的 对 象 。 


















































) 的 对 象 。 模 型 代表 的 
EE 包含 如 何 来 显示 这 些 信 














以 上 关系 如 图 6-1 所 示 。 用 户 通过 鼠标 和 键盘 把 输入 传送 给 控制 部 分 。 
控制 部 分 可 以 调用 模型 和 视图 ， 根 据 需 要 调用 相应 的 方法 ， 对 应 用 程序 
整体 进行 控制 。 














1 
了 


图 6-1 模型 、 视 图 以 及 控制 各 部 分 的 功能 和 相互 间 的 关系 


视图 可 以 访问 模型 ， 在 窗口 中 显示 模型 的 状态 。 查 询 模 型 的 状态 有 多 种 
方法 。Smalltalk 一 般 是 利用 0bject 类 中 内 髓 的 Observer 模式 4 。 还 有 
所 谓 的 轮 询 法 ， 每 隔 一 定时 间 ， 在 发 生 显示 事件 时 去 查询 模型 的 状态 。 


4 Observer 模式 ， 是 一 种 降低 多 个 对 象 间 依 赖 性 的 较 有 效 的 设计 模式 。 使 用 目的 是 观察 状态 的 
变化 ， 并 发 出 相应 的 通知 。 


视图 部 分 能 否 访问 控制 部 分 要 视 不 同 应 用 而 定 。 图 6-1 表示 的 是 能 够 访 
问 的 情况 。 对 于 简单 的 窗口 应 用 ， 在 大 多 数 情况 下 ， 视 图 没有 必要 去 访 
问 控制 。 但 是 ， 当 应 用 变 得 复杂 时 ， 视 图 和 控制 之 间 的 相互 作用 就 变 得 
越 来 越 频 篆 ， 很 多 时 候 也 就 变 成 一 体 了 (以 后 会 讲 到 〉。 


男 一 方面 ， 模 型 没有 必要 设计 成 可 以 访问 视图 部 分 或 控制 部 分 。 从 图 6- 
1 可 以 看 到 ， 没 有 从 模型 出 来 的 第 涉 ， 这 是 因为 模型 和 视图 有 可 能 不 是 
一 对 一 的 关系 。 换 句 话 说 ， 同 样 的 模型 可 以 对 应 多 个 视图 。 


比如 ， 考 虑 一 下 钟表 应 用 。 模 型 相当 于 记录 时 间 的 机 构 。 视 图 则 是 实际 
表示 时 间 的 部 分 ， 既 可 以 是 模拟 表 ， 也 可 以 是 数字 表 。 这 种 情况 下 ， 只 
要 更 换 视 图 部 分 的 对 象 就 能 实现 钟表 的 不 同 表示 。 因 此 ， 如 果 把 模型 设 
计 成 直接 访问 视图 就 不 方便 了 。 


把 代表 应 用 好 辑 的 模型 部 分 与 提供 界面 的 视图 和 控制 部 分 分 离开 来 还 有 
其 他 一 些 好 处 。 将 来 ， 当 更 换 界 面 或 是 退 加 其 他 一 些 大 规模 变更 时 ， 对 
应 用 逻辑 的 影响 也 较 少 。 相 对 应 用 逮 辑 变更 来 说 ， 界 面 变更 的 情况 占 绝 
大 多 数 ， 所 以 把 它们 分 离开 来 是 很 合理 的 。 















































6.1.2 用 秒表 的 例子 来 学 习 MVC 模 式 


只 作 理 论 上 的 讲解 ， 还 不 容易 让 人 理解 使 用 MVC 有 什么 方便 。 这 里 
我 们 准备 了 示例 程序 。 

这 次 使 用 的 例子 是 一 个 简单 的 秒表 程序 。 画 面 上 表示 出 经 过 的 时 间 ， 按 
键盘 上 任意 键 局 动 或 停止 秒表 ， 按 下 q 键 时 退出 程序 。 计 时 单位 和 普通 
的 数字 秒表 一 样 ， 是 W100 秒 。 


为 了 以 MVC 模式 来 实现 程序 ， 首先 开始 考虑 对 象 的 构成 。 既 然 是 
MVC 模式 ， 需 要 准备 模型 、 视 图 和 控制 这 3 个 对 象 。 


如 表 6-1 那样 简单 地 进行 划分 。 这 是 一 个 典型 的 MVC 构成 。 类 名 中 直 
接 包 含 了 代表 其 作用 的 单词 ， 可 以 看 到 重要 的 是 不 能 混 消 它们 的 功能 


表 6-1 秒表 程序 中 MVC 模 式 的 构成 


























里 内 容 
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那么 ， 先 来 看 看 模型 类 WatchModel 的 代码 (参见 图 6-2) 。 











#! /usr/bin/ruby 


require "observer" 


# the Model] class count clock ticks 
class WatchModel 
include Observable 
def initialize 
@running = false 
@time = 0 
@last = 6.6 
Thread.start do 
loop do 
Sleep 606.61 
if @running 
now = Time.now.to f 
@time += now - @last 


@last = now 
changed 
notify observers(Q@time) 
end 
end 
end 
end 


def start stop 
@last = Time.now.to f 
@running = ! @running 

end 

def time 
@time 

end 

end 








图 6-2 秒表 程序 中 的 模型 部 分 











首先 ， 为 了 实现 模型 和 视图 的 协作 ， 本 程序 利用 了 设计 模式 之 一 的 
Observer 模式 。 所 以 ， 程 序 的 开头 要 加 载 observer 库 。 接 着 ， 因 为 
WatchModel 要 成 为 Observer 模式 的 观察 对 象 ， 所 以 在 类 定义 的 开头 要 
包含 Observable 模块 。 


类 WatchModel 有 3 个 方法 : initialize 、start_stop 和 time 
。initialize 初始 化 模型 ， 让 秒表 开始 计数 。initialize 方法 中 使 
用 的 无 限 循 环 有 点 特别 。 但 是 ， 在 使 用 线程 时 程序 是 可 以 写成 这 样 的 。 
请 注意 ， 此 循环 是 在 别 的 线程 中 进行 的 。 


在 主 循环 中 ， 每 次 sleep 0.01 秒 。 这 次 采用 的 计时 精度 是 1100 秒 ， 所 
以 每 次 加 算 0.01 秒 〈1/100 秒 ) 。 在 实例 变量 Qrunning 为 真 的 时 候 进 
行 计时 ， 状 态 变 更 的 时 候 则 通知 一 直 在 观察 此 模型 的 观察 者 (这 里 是 视 
图 对 象 )。 具 体 执行 是 利用 了 设 定 变更 标志 的 changed 方法 和 实际 通 
知 的 notify_observers 方法 。 


start_stop 方法 用 来 设置 例 程 变量 running ， 对 秒表 的 开始 和 停止 
进行 切换 。 就 好 像 实 际 的 秒表 那样 执行 。time 方法 则 返回 经 过 的 时 
间 。 


initialize 进行 初始 化 (启动 内 部 的 主 循环 ) ，start_stop 启动 或 








停止 秒表 ， 用 time 方法 获取 到 现在 为 止 丝 过 的 时 间 。 这 就 是 秒表 的 应 
用 逻辑 。 厦 还 非 要 再 列举 的 话 ， 也 许 还 需要 复位 功能 。 但 是 ， 通 过 这 些 
0 WatchModel 类 基本 上 提供 了 作为 秒表 应 用 程序 模型 所 必须 具备 
功能 。 


6.1.3 ”生成 视图 和 控制 部 分 


模型 的 下 一 步 就 是 视图 ， 图 6-3 给 出 了 秒表 程序 的 视图 部 分 。 构 成 视图 
的 WatchView 类 很 简单 。 初 始 化 对 象 的 ijnitialize 方法 接受 表示 对 
象 的 模型 作为 参数 ， 使 用 add_observer 方法 把 自己 登录 为 模型 的 观察 
者 。 因 为 使 用 了 observer 库 ， 只 有 这 么 一 行程 序 ， 就 可 以 实现 在 模型 
发 生变 更 的 同时 调用 视图 对 象 的 update 方法 。update 方法 只 是 简单 
地 将 到 现在 为 止 的 累积 时 间 表 示 出 来 。 在 这 里 为 了 控制 画面 ， 使 用 了 
ANSI 转 义 符 《ESC [8D) ， 让 光标 移动 到 行 的 开头 再 显示 时 间 。 














# the View 
class WatchView 
def initialize(model) 
model.add observer(self) 
end 
def update(time) 


printf "\e[8D%62d:%82d", time.to i, (time-time.to i)*1606 
STDOUT.flush 
end 
end 





图 6-3 秒表 程序 的 视图 部 分 


最 后 是 生成 控制 类 (参见 图 6-4) 。 有 多 种 方式 能 够 生成 模型 、 视 图 和 
控制 这 3 个 对 象 间 的 关联 。 这 里 为 了 构成 简单 ， 让 控制 类 打头 ， 然 后 生 
成 另外 两 个 对 象 ， 把 三 者 进行 了 关联 ” 。 


5 复杂 的 应 用 使 用 所 谓 的 DI (Dependency injection ) 方法 比较 好 。 












































# the Controller 
class WatchController 
def initialize 
@model = WatchModel .new 
@view = WatchView.new(@model) 
system "stty cbreak -echo" 


begin 
Q@view.update(@mode1l.time) 
loop do 
break if STDIN.getc == ?9q 
@model.start_stop 
end 
ensure 
system "stty cooked echo" 
end 
end 
end 


WatchController.new 























图 6-4 秒表 程序 中 的 控制 部 分 








控制 类 WatchController 的 ijnitialize 方法 生成 了 模型 和 视图 对 象 ， 
让 三 者 发 生 了 关联 。 


控制 类 接受 用 户 的 键盘 输入 。 这 里 不 想 使 用 curses 库 那 样 大 规模 的 东 
西 ， 所 以 用 systenm 方法 调用 stty 命令 对 终端 进行 设 定 。 


stty cbreak-echo 设 定 成 让 终端 对 每 一 个 键 的 输入 都 进行 响应 
(cbreak 模式 ) ， 不 显示 输入 的 文字 〈-echo) 。 这 样 程序 就 可 以 直接 接 
受 键盘 的 输入 了 了。 


程序 结束 时 希望 回 到 初始 状态 ， 所 以 执行 stty cooked echo 命令 ， 
回 到 通常 设 定 ， 即 以 行为 单位 读 取 (cooked ) 输入 并 显示 输入 的 文字 
(echo ) 。 使 用 ensure 来 保证 程序 终止 时 一 定 回 到 以 前 的 设 定 状 


4UDN Oo 


剩 下 的 就 是 控制 部 分 的 主 循环 。 从 键盘 读 取 每 个 输入 ， 如 果 是 gq 则 结 
， 和 否则 就 调用 模型 的 start_stop 方法 ， 对 秒表 进行 开关 控制 。 








6.1.4 GUI 工具 箱 与 MVC 


MVC 是 Smalltalk 语言 用 来 作为 一 般 GUI 应 用 的 构成 方式 。 但 是 ， 其 他 
的 语言 没有 广泛 使 用 MVC。 那 么 ， 一般 的 GUI 工具 箱 一 定 也 有 某 种 构 
造 模式 。 对 于 它们 来 说 ， 模 型 、 视 图 和 控制 都 是 如 何 构成 的 呢 ? 我 们 来 





和 MVC 作 一 个 比较 。 


多 数 的 GUI 工具 箱包 括 部 件 (component) 、 事 件 (event) 和 回调 
(callback) 。 这 里 拿 一 个 使 用 了 Ruby/Tk 的 GUI 应 用 为 例 〈 人 参见 图 6- 
5) 。 





# Ruby/TKk 
require "tk" 
TkButton.new(nil, 'text' => 'hello', 
“command ”=> proc{print "hello\n"}). 
pack('fill' => 'x') 
TkButton.new(nil, 'text' => "quit '， 


'command' => proc{exit}).pack('fill' 
=> 'x') 
Tk.mainloop 





图 6-5 ”使 用 Ruby/Tk 的 单纯 的 GUI 应 用 


执行 图 6-5 的 代码 会 显示 如 图 6-6 那样 的 一 个 小 窗口 。 按 下 上 面 的 hello 
键 ， 标 准 输出 会 输出 hello， 按 下 下 面 的 quit 键 则 退出 程序 。 








图 6-6 图 6-5 程序 的 输出 结果 


在 这 个 程序 中 ， 功 能 相当 于 视图 和 控制 的 是 TkButton 类 。TkButton 
类 中 有 〈1) GUI 按钮 作为 显示 效果 ， (2) 用 户 按 下 按钮 (在 按钮 上 点 
击 鼠 标 ) 来 实现 功能 。 因 为 使 用 了 按钮 这 样 的 隐喻 方式 ，GUI 应 用 不 需 
ee 

己 。 














在 典型 的 GUI 应 用 程序 中 ， 鼠 标 光 标 移 动 到 按钮 上 时 改变 按钮 的 颜色 
或 视觉 等 效果 《看 起 来 凸 出 来 ) ， 人 在 反击 的 瞬间 使 按钮 问 下 去 等 ， 控 制 
和 视图 紧密 协作 ， 共 同 实现 这 些 功能 。 在 这 种 密切 相关 的 情况 下 ， 对 类 
进行 分 割 的 做 法 并 不 明智 。 所 以 ， 多 数 的 工具 省 都 是 视图 和 控制 部 分 相 
结合 而 被 称 为 部 件 〈component) 。 按 钮 、 荣 单 或 荣 单 条 等 都 是 典型 的 








GUI 部 件 。 


如 果 说 视图 和 控制 结合 成 为 了 部 件 ， 那 么 和 模型 部 分 相当 的 又 是 什么 
呢 ? 

实际 上 ，GUI 工具 箱 没 有 提供 和 模型 相当 的 东西 。 作 为 替代 而 提供 了 访 
问 模 型 的 入 口 ， 这 就 是 回调 。 

图 6-5 的 程序 中 有 两 处 调用 了 proc 方法 ， 这 就 是 回调 。proc 是 一 种 方 
法 ， 可 以 将 完成 一 定 操作 的 程序 块 作 为 对 象 调 出 来 。 当 用 户 输入 发 生 特 
定 的 事件 时 ( 按 下 按钮 等 ) ，GUI 部 件 通 过 回调 调 出 功能 程序 块 。 
回调 一 般 是 较 小 的 操作 功能 ， 发 挥 “ 启 动 * 模 型 对 象 的 功能 。 回 调 的 功能 
就 好 像 是 医 结 “视图 + 控制 * 组 成 的 部 件 和 模型 之 间 的 “上 胶水 ”。 
0 
来 理解 。 


V+C GUI 部 件 
M 回调 








6.1.5 ”同时 使 用 工具 箱 和 MVC 


GUI 工具 箱 是 靠 这 样 的 部 件 组 合 来 开发 应 用 的 。 那 么 ， 使 用 了 工具 箱 的 
GUI 编程 不 能 使 用 MVC 吗 ? 


GUI 工具 箱 提供 了 个 别 的 部 件 ， 但 对 应 用 整体 的 架构 基本 上 没有 文 持 。 
就 算 使 用 了 GUI 工具 箱 ， 把 整体 应 用 构造 成 MVC 模式 ， 这 样 就 可 以 开 
发 出 系统 构成 明确 是 容易 维护 的 应 用 了 。 


那么 ， 让 我 们 来 生成 一 个 使 用 GUI 工具 箱 ， 并 采用 MVC 构成 的 应 用 
吧 。 具 体 来 说 ， 葡 是 把 前 面 的 秒表 进行 视图 化 《GUI 化 ) 。 


图 6-7 (mvc-guirb) 是 使 用 Ruby/Tk 和 GUI 化 的 秒表 程序 。 图 6-7 的 程 
序 执行 之 后 会 显示 出 图 6-8 那样 的 窗口 。 按 下 start/stop 按钮 后 ， 秒 表 开 
台 计 时 ， 再 次 按 下 则 停止 。 按 下 quit 钮 则 终止 程序 。 




















#! /usr/bin/ruby 


require "observer" 
require "tk" 


# the Model class count clock ticks 
class WatchModel 
include Observable 
def initialize 
@running = false 


@time = 0 
@last = 6.6 
Thread.start do 
loop do 
Sleep 6.01 


if @running 
now = Time.now.to f 
@time += now - @last 
@last = now 
changed 
notify observers(Q@time) 

end 

end 
end 
end 


def start_stop 
@last = Time.now.to f 
@running = ! @running 

end 

def time 
@time 

end 

end 


# the View+Contoller 
class WatchWindow 
def initialize 
model = WatchModel.new 
model.add observer(self) 


@label = TkLabel.new(nil).pack('fill'=>'x') 
self.update(6) 

btn = TKButton.new 

btn.text('start/stop') 
btn.command(proc{model.start stop}) 
btn.pack('fill'=>'x') 


btn = TKButton.new 
btn.text( 'quit ' ) 
btn.command(proc{exit}) 
btn.pack('fill'=>'x') 
Tk.mainloop 
end 
def update(time) 
@label.text format("%062d:%602d", 
time.to i, 
(time-time.to i)*1060) 
end 
end 


WatchWindow.new 




















图 6-7 秒表 进行 GUI 化 之 后 


-olx| 
00:00 


start/stop 
quit 








图 6-8 图 6-7 程序 的 输出 结果 


一 起 来 看 看 图 6-7 的 程序 内 容 。 模 型 的 WatchModel 和 以 前 的 文字 版 完 
全 一 样 。MVC 构成 把 应 用 的 本 质 部 分 分 离 出 来 ， 所 以 应 用 的 画面 变化 
基本 上 不 会 给 模型 带 来 什么 影响 。 


剩 下 的 视图 和 控制 ， 是 把 GUI 工具 箱 及 事件 处 理 二 者 结合 起 来 。 模 型 
和 视图 作为 不 同 对 象 分 割 开 的 意义 现在 还 看 不 出 来 。 这 里 我 们 把 模型 和 
视图 二 者 的 功能 用 WatchWindow 类 统一 起 来 。 


类 WatchWindow 使 用 Observer 模式 可 以 收 到 模型 的 变更 通知 ， 这 点 和 
文字 版 的 视图 是 相同 的 。 收 到 变更 通知 后 会 调用 update 方法 ， 它 改变 
label 对 象 的 文字 来 表示 时 间 。 


文字 版 的 控制 是 对 用 户 的 输入 进行 响应 。 图 6-7 则 是 交 给 了 
Ruby/Tk。initialize 方法 中 配置 了 GUI 部 件 (表示 时 间 的 标签 和 秒 
表 的 操作 按钮 ) ， 指 定 了 对 模型 对 象 进行 操作 的 回调 。 文 字 版 里 的 循环 
部 分 由 Ruby/Tk 的 启动 事件 循环 的 Tk.mainloop 来 实现 。 























这 样 做 了 之 后 ， 这 个 应 用 把 多 个 GUI 部 件 的 小 MVC 统一 成 一 个 GUI 
应 用 的 大 MVC， 实 现 了 多 层 构 造 。 


因此 ， 使 用 了 GUI 工具 箱 的 应 用 也 可 以 利用 MVC 构成 。 采 用 了 这 样 的 
构成 之 后 ， 和 功能 本 身 相关 的 变更 束 只 针对 模型 部 分 来 执行 ， 和 用 户 界 
面相 关 的 变更 就 只 针对 视图 和 控制 来 执行 即 可 。 

6.1.6” MVC 的 优 缺 点 

上 述 MVC 对 于 软件 设计 有 很 多 优点 ， 总 结 如 下 : 

可 以 更 换 界 面 


刚才 已 经 表明 ， 对 于 模型 未 作 任何 变更 ， 文 字 版 的 秒表 变 成 了 GUI 版 
程序 。 采 用 MVC 构造 可 以 容易 地 更 换 界 面 。 


一 个 模型 对 应 多 个 视图 

使 用 MVC 构造 ， 不 仅 可 以 更 换 界 面 ， 一 个 模型 可 以 同时 赋予 多 个 界 

面 。 比 如 和 数字 表 同 时 执行 的 模拟 表 ; 在 表格 计算 的 同时 ， 和 数值 相关 
的 图 形 也 一 起 联动 等 。 使 用 MVC 构造 之 后 ， 能 够 目 然 地 实现 多 个 复杂 
的 视图 。 

多 个 视图 可 以 同时 啊 应 

使 用 MVC 构造 准备 好 多 个 视图 时 ， 只 要 编程 不 出 问题 ， 所 有 的 视图 都 
会 同时 啊 应 模型 的 状态 。 比 如 ， 在 表格 计算 时 ， 每 格 数值 变化 的 瞬间 ， 
图 形 也 随 之 发 生变 化 。 

容易 测试 


MVC 将 应 用 的 本 质 内 容 作为 模型 独立 出 来 ， 在 生成 界面 之 前 可 以 对 应 
用 逻辑 进行 测试 。 


另 一 方面 ，MVC 不 是 没有 缺点 。 
杂 性 


等 应 用 分 割 成 模型 、 视 图 和 控制 ， 各 个 部 分 设 定 各 目的 功能 ， 对 变更 要 

















el 





te 


无 消 后 地 通知 等 ， 要 做 到 这 些 需 要 复杂 的 处 理 。 不 过 ， 像 这 次 的 例子 程 
序 这 样 仅 用 60 行 代 码 就 完成 了 。 只 要 使 用 适当 的 语言 和 适当 的 库 ， 可 
以 将 复杂 性 尽量 降低 。 

强 关 联 性 

里 然 分 离 为 不 同 的 对 象 ， 但 模型 、 视 图 和 控制 三 者 相互 之 间 保 持 了 强 关 


联 性 。 对 模型 对 象 进行 了 功能 退 加 这 样 的 变更 之 后 ， 相 应 地 也 必须 对 视 
图 和 控制 进行 变更 。 


6.1.7 Web 应 用 中 的 MVC 


到 此 为 止 ， 我 们 见识 了 GUI 应 用 中 的 MVC 和 案例。 那么 ， 在 web 应 用 
中 ，MVC 是 如 何 发 挥 作 用 的 呢 ? 


首先 ， 需 要 意识 到 Web 应 用 的 基本 是 HITP。HTTP 的 一 次 处 理 经 过 了 
下 面 1 到 3 的 过 程 : 


1. Web 浏览 器 对 应 于 用 户 的 操作 ， 同 Web 服务 器 发 出 HTTP 请 求 。 

2. Web 服务 器 根据 请 求 ， 准 备 好 发 送 到 Web 浏览 器 的 数据 。 

3. Web 服务 器 把 数据 以 HTTP 响应 的 形式 送 还 Web 浏览 器 

用 MVC 模式 来 对 应 上 述 的 过 程 应 该 是 以 下 形式 。 

1 Web 浏览 器 发 送 来 的 HTTP 请 求 通过 Web 服务 器 传 给 控制 部 分 。 
Web 应 用 框架 的 分 配器 (分 配 部 件 ) 把 请 求 传递 给 合适 的 控制 部 
hg 

2. 控制 部 分 操作 的 模型 和 请 求 的 信息 相对 应 ， 同时 指定 显示 使 用 的 视 
图 。 视 图 从 模型 启动 ， 一 边 引用 模型 一 边 准 备 发 送 给 Web 浏览 器 
的 数据 。 

3，Web 服务 器 把 数据 以 HTTP 响应 的 形式 送 还 Web 浏览 器 


和 较 复杂 的 GUI 应 用 不 同 的 是 ，HTTP 的 控制 的 流程 对 于 1 个 请 求 会 返 
回 1 个 咽 应， 从 控制 到 视图 的 处 理 顺 序 是 明确 的 。 























图 6-9 显示 了 作为 使 用 MVC 的 Web 应 用 的 代表 ，Ruby on Rails 的 
MVC 构成 。 不 过 ， 虽 说 Rails 采用 了 MVC， 但 它 的 用 法 和 传统 的 MVC 
模式 还 是 有 些微 妙 的 不 同 。 


























图 6-9 Web 用 中 的 MVC，Ruby on Rails 的 情 开 


Rails 中 也 存在 模型 、 视 图 和 控制 ， 各 自 保 存在 独立 的 目录 下 。 构 成 
Rails 应 用 的 目录 下 有 一 个 叫 app 的 子 目 录 ， 在 它 之 下 又 配置 有 以 下 的 
目录 。helpers 是 指 帮助 程序 。 

app/models 


app/views 
app/controllers 














app/helpers 











到 此 为 止 ， 在 说 明 的 MVC 模式 中 ， 模 型 是 指 业务 逻辑 ， 控 制 器 指 输入 
控制 ， 视 图 指 输 出 控制 的 功能 。Ruby on Rails 上 的 MVC 各 部 分 功能 稍 
有 不 同 。Rails 中 的 模型 相当 于 数据 库 层 ， 视 图 指 显 示 用 的 模板 ， 控 制 
器 指控 制 用 的 类 《包含 了 应 用 逻辑 ) 。 


传统 的 MVC 模式 和 Rails 的 MVC 模式 相 比较 的 话 ， 大 体 上 如 表 6-2 所 
示 的 对 应 关系 ， 相 互 之 间 有 些 不 同 。 


表 6-2 ”传统 的 MVC 和 Rails MVC 的 比较 


传统 的 MVC “| Rails 的 MVC 




















本 来 ，Web 应 用 广泛 采用 3 层 的 系统 架构 。 所 谓 3 层 是 指 用 户 界 面 
(UI) 层 、 业 务 逻 辑 层 和 数据 库 层 这 3 层 。 传 统 的 MVC 模型 把 业务 层 
和 数据 库 层 合 为 一 体 称 为 模型 。 这 和 SmallTalk 不 太 使 用 外 部 数据 库 
(系统 本 身 有 持久 化 功能 ) 也 许 有 一 定 的 关系 。 


另 一 方面 ， 由 于 HTTP 特性 的 关系 ， 那 些 把 UI 部 分 的 复杂 性 全 部 交 给 
Web 浏览 堪 来 完成 的 Web 应用， 相对 来 说 UI 层 会 变 弱 。 控 制 右 用 一 般 
的 设计 就 足够 了 ， 模 型 和 视图 间 的 关联 也 不 必要 了 。 因 此 ， 把 模型 分 割 
成 数据 库 层 和 业务 逻辑 层 ， 下 层 称 为 模型 ， 上 层 称 控制 右 。 


实际 上 ，Rails 的 控制 器 不 仅 是 业务 逻辑 ， 也 还 担当 了 一 部 分 控制 功 
能 ， 不 能 说 完全 是 名 不 副 实 。 


同样 是 MVC 模式 ， 各 目的 功能 却 有 些许 不 同 ， 感 党 有 点 奇怪 。 也 许 是 
由 历史 原因 造成 的 。 


词语 的 意思 也 稍稍 有 些 不 同 ， 有 点 及 烦 。 不 过 ，Rails 采用 与 传统 MVC 
不 同 的 功能 划分 不 能 说 不 好 。Rails 支持 的 以 数据 库 为 中 心 的 应 用 架构 
中 ， 与 把 业务 逻辑 和 数据 库 操作 合 为 一 体 称 作 模型 相 比 较 ， 更 清楚 地 分 
割 开 来 ， 会 更 容易 维护 ， 所 以 才 出 现 了 3 层 模型 。 











6.2 开放 类 和 猴子 补丁 


Wikipedia 英语 版 对 猴子 补丁 Cmonkey patch) 的 解释 是 ， 在 动态 语言 
中 ， 不 改变 源 代 码 而 对 功能 进行 退 加 和 变更 。 


历史 上 ，Zope (Python 的 Web 框架) 中 ， 修 正 别 人 的 程序 错误 时 在 程 
序 后 面 退 加 更 新 的 部 分 ， 叫 做 “杂牌 盏 补丁 ”〈guerilla patch) ， 和 杂牌 军 
猩猩 (gorilla〉 -猴子 Cmonkey) ， 不 知道 是 怎么 联想 的 。 本 来 的 含 
义 是 蔡 换 已 有 的 方法 《〈 打 补丁 ) ， 现 在 灵活 使 用 开放 类 ， 变 更 和 奶 加 方 
法 全 部 称 为 猴子 补丁 。 这 里 也 许 有 “ 打 补 丁 的 对 象 是 类 ”这 一 层 意思 。 


6.2.1 开放 类 


Ruby 的 类 的 特征 是 所 谓 的 开放 类 ， 相 对 其 他 多 种 语言 而 言 ， 特 别 易于 
打 猴 子 补 丁 。 


开放 类 是 指定 义 了 之 后 也 能 任意 退 加 内 容 的 类 。Ruby 中 ， 普 通 的 类 是 
按 以 下 方式 定义 的 。 


class Foo < Bar 
def plus2(arg1，arg2) 
return argl + arg2 
end 














end 





上 面 的 代码 新 定义 了 一 个 叫 Foo 的 类 。 它 的 父 类 是 Bar 。 类 里 用 def 
语句 定义 了 plus2 的 方法 。 


Foo 类 可 以 继承 父 类 Bar 拥有 的 方法 ，Foo 类 的 对 象 可 以 使 用 Bar 类 的 
方法 和 plus2 方法 。 


像 这 样 ，Ruby 可 以 定义 新 类 ， 也 可 以 给 已 有 的 类 追加 定义 。 下 面 就 是 
给 已 经 定义 了 的 类 Foo 追加 方法 。 


class Foo 
def times2(arg1，arg2) 


return arg1 * arg2 
end 





有 了 上 面 的 代码 ，Foo 类 就 可 以 使 用 从 Bar 类 继承 来 的 方法 ， 以 及 前 面 
定义 的 方法 plus2 和 新 定义 的 方法 times2 。 这 样 对 Foo 类 重新 定义 之 
后 ， 即 使 是 已 经 生成 的 Foo 类 对 象 ， 也 拥有 新 增加 的 功能 。 


Ruby 中 ， 可 以 把 String 类 、Array 类 等 基本 的 数据 类 型 及 所 有 的 类 
都 作为 开放 类 人 处理， 可 以 自由 地 追加 功能 。 


6.2.2 猴子 补丁 的 目的 


使 用 开放 类 ， 不 改变 原先 的 代码 ， 丛 换 方法 (相当 于 打 补 丁 ) 被 称 为 猴 
子 补丁 。 使 用 此 技术 可 以 完成 以 下 功能 。 


功能 追加 


利用 开放 类 可 以 给 已 有 的 类 退 加 功能 。 回 标准 的 字符 串 和 数组 类 追加 方 
法 很 大 胆 ， 有 时 候 惑 非常 有 效 。 











不 仅 是 追加 方法 ， 蔡 换 方法 可 以 让 已 有 的 类 发 挥 完全 不 同 的 功能 。 比 
如 ，mathn 库 作 了 下 面 的 功能 变更 。 


Ruby 里 ， 整 数 相 除 的 结果 还 是 整数 : 


通常 的 结果 是 舍 去 1/3 成 为 0。 不 过 ， 如 果 加 载 mathn ，1/3 的 结果 可 
以 返回 有 理 数 3。 另 外 也 可 以 扩展 到 求 负数 的 平方 根 返回 复数 值 。 


修正 程序 错误 








因为 重新 定义 了 有 程序 错误 或 有 副作用 的 方法 ， 不 用 修改 原来 那 部 分 的 
代 间 就 可 以 解决 问题 ， 这 也 是 本 来 的 《 称 为 杂牌 军 补 了 的 时 候 》 儿 了 和 
丁 的 目的 。 


钧 子 

有 时 候 想 在 每 个 方法 调用 的 同时 增加 一 些 其 他 处 理 ， 比 如 日 志 输 出 功 

能 。 这 种 伴随 方法 调用 而 进行 的 处 理 称 为 “钩子 ”(hook) ， 钧 子 的 追加 
也 可 以 用 猴子 补丁 来 实现 。 

缓存 (cache) 

在 计算 量 很 大 ， 而 且 一 次 计算 之 后 结果 可 以 反复 使 用 的 情况 下 ， 在 一 次 


计算 完成 后 ， 对 方法 进行 蔡 换 可 以 提高 处 理 的 速度 。 比 如 在 ate 库 中 ， 
罗马 癸 略 历 〈Julius 历 ) 的 原点 的 计算 就 用 了 此 方法 。 


6.2.3 ”猴子 补丁 的 技巧 


可 以 把 Ruby 提供 的 对 方法 、 类 和 模块 进行 操作 的 功能 (参见 表 6-3) 
运用 到 打 猴 子 补丁 上 。 最 基本 的 功能 束 是 给 已 有 的 方法 改名 或 取消 。 








表 6-3 ”对 方法 、 类 和 模块 进行 操作 的 功能 


rE 




















include 加 入 其 他 模块 中 的 方法 
remove_method | 取消 本 类 中 的 方法 


undef 取消 方法 








undef 


undef 有 把 方法 取消 定义 的 功能 。 用 undef 不 仅 可 以 取消 本 类 中 的 方 
法 ， 也 可 以 取消 父 类 中 定义 的 方法 (参见 图 6-10) 。 


class C1 < Object 
def methodl 





class C2 < Cl 
def method2 





c.methodl C 可 以 调用 

cmethod? methodl 和 method2 
再 次 打开 类 c2 

class C2 


取消 cli 中 定义 的 方法 





undef methodl 
取消 c2 中 定义 的 方法 





undef method2 
end 





C 已 经 不 认识 methodl 和 method2 了 


c.methodl # 出 错 ! 
c .method2 # 出 错 ! 


图 6-10 用 undef 来 取消 方法 


这 里 使 用 了 undef 语句 。undef_method 方法 也 可 以 提供 同样 的 功能 
(参见 图 6-11) 。 语 句 中 用 符号 指定 要 取消 的 对 象 的 方法 名 。 符 号 是 指 
跟 在 冒号 后 的 名 字 ，Ruby 用 这 种 方式 表示 程序 中 的 名 字 等 。 


class C2 用 方法 来 undef 


undef method :method2 
end 


图 6-11 用 undef_method 来 取消 方法 
undef_method 是 类 【正确 地 说 应 该 是 父 类 的 模块 中 的 方法 ， 可 以 在 
类 定义 或 是 模块 定义 中 来 调用 。 
和 undef 、undef_method 非常 相似 的 功能 还 有 remove_method 。 和 
undef 不 同 的 是 ，remove_method 不 是 语句 ， 只 是 提供 了 方法 。 
现在 来 取消 类 中 的 方法 。 如 果 取 消 的 对 象 不 是 本 类 中 定义 的 方法 则 会 出 


错 (参见 图 6-12) 。 而 且 ，remove_method 仅 是 取消 本 类 中 定义 的 方 
法 ， 如 果 父 类 中 定义 有 同名 的 方法 ， 则 今后 会 直接 调用 父 类 的 那个 方 



































class C1 < Object 
def methodl 类 cl 提供 的 方 诗 
p :methodl 


def method2 
p :method2 


class C2 < C1 
def method2 
end 类 C2 提 供 的 方 法 
def method3 


删除 C2 的 method3 


remove_method :method3 





噜 除 C2 的 method2 





cl 的 methoda2 就 有 效 了 


remove method :method2 
c2 中 没有 methodl， 出 错 


remove method :methodl 
end 


6-12 用 remove_method 删除 方法 
alias 


给 方法 起 一 个 别名 (参见 图 6-13) ， 起 了 别名 的 方法 和 以 前 的 方法 只 是 
名 字 不 同 ， 功 能 完全 一 样 。 不 过 ， 用 undef 或 remove_method 删除 了 
以 前 的 方法 之 后 ， 别 名 的 方法 还 能 使 用 (参见 图 6-14) 。 


Cla opieee 
def foo 
Buts "too, 


给 方法 fooe 起 别名 bar 


alias bar foo 


end 


end 


c3 = C3 .new 
c3.foo # 输出 "foo" 
c3 .bar # 同样 输出 "foo" 


图 6-13 用 alias 给 方法 起 别名 





class C3 < Object 
def foo 
puts "foo" 
end 


给 方法 foo 起 别名 ba 


alias bar foo 
undef foo 
end 


C3 = CHEnew 
ce3 .bar # 输出 "fo0o" 
c3.foo # 已 经 被 undef， 所 以 出 错 


6-14 用 alias 给 方法 起 别名 

















alias 是 Ruby 的 语句 。 就 像 undef 有 方法 版 的 undef_method 一 

样 ，alias 也 有 方法 版 的 alias_method 。alias 是 打 猴 子 补丁 时 最 常 
用 到 的 功能 。 一 般 做 法 是 ， 给 某 个 方法 用 alias 起 个 别名 ， 在 重新 定 
义 的 方法 中 用 别名 来 调用 原来 的 方法 ， 从 而 给 原来 的 方法 增加 新 功能 。 
图 6-15 显示 了 调 出 方法 后 用 猴子 补丁 来 增加 日 志 功 能 的 例子 。 








打 猴 子 补丁 的 对 象 类 


class ExampleClass < Object 


SE eo Some 打 猴 子 补丁 的 对 象 方法 
# 某 种 处 理 


打印 "qo something!" 


p "do_something!" 
end 


cna 生成 ExampleClass 对 象 


e = ExampleClass .new 





调用 印 do_something 方法 





打印 "do_somethingl" 
e.do_something 


为 了 打 锋 子 补丁 ， 再 次 打开 类 





class ExampleClass 
利用 alias 对 原始 方法 进行 保存 





alias do_something_orig do_something 


def do_something 重新 定义 方法 


p "enter do_something" 输出 开始 记录 





调用 保存 的 原始 方法 


do_something_orig 





p "exit do_something" 
end 
end 村 pH 
e.do_something 调用 ao_something， 因 为 已 打 
# 输出 
# "enter do_something" 
# "do_something!" 
# "exit do_something" 





六 补丁， 所 以 前 后 都 有 记录 输出 


图 6-15 用 alias 打 猴 子 补丁 的 例子 


include 


include 是 类 或 者 模块 中 把 其 他 模块 的 方法 包含 进来 的 功能 。 它 不 像 
0 
费 块 功能 。 


这 时 候 需 要 注意 的 是 ， 用 include 包含 进来 的 模块 ， 是 作为 (假想 ) 
父 类 来 处 理 的 ， 所 以 模块 提供 的 方法 在 优先 顺序 上 要 低 于 本 类 提供 的 方 
法 (参见 图 6-16) 。 用 include 的 时 候 还 要 注意 方法 名 的 重复 问题 。 





module Helper 鼠 -| 用 于 追加 功能 的 模块 


def helper 提供 helper 和 
P “helper" some_method 
end 


def some method 
p "Helper#some_method" 
end 
end 





举例 用 的 类 Example 





class Example < Object 


include Helper 包含 模块 
Helper 


2 碰巧 用 了 同样 的 名 字 
P "Examplei#some method" some_method 
end 
end 


e = Example.new 生成 对 象 


调用 Helper 模块 提供 的 方 
法 ， 没 有 问题 

e.Some method 

磁 到 同名 的 方法 时 ，Example 





e.helper 





中 定义 的 方法 优先 
图 6-16 include 涉及 的 方法 的 优先 顺序 


6.2.4 ”灵活 使 用 开放 类 的 库 
作为 灵活 使 用 开放 类 库 的 例子 ， 这 里 来 介绍 jcode 。 








Ruby 1.8 的 字符 串 一 般 都 是 字 节 的 组 合 : ，str[n] 将 返回 字符 串 的 第 n 
个 字 节 。 如 果 文 字 是 用 EUC 或 JIS 这 样 的 多 字 节 编码 表示 的 话 ， 除 非 
使 用 正则 表达 式 * ， 否 则 无 法 对 应 多 字 节 文字 。 


1 Ruby 1.9 扩展 了 字符 串 ， 成 为 了 文字 的 组 合 。 详 情 见 第 7 章 。 























2 Ruby 的 正则 表达 式 能 够 对 应 多 字 节 ， 只 要 适当 地 指定 了 文字 编码 ， 就 可 以 处 理 EUC、SJIS 和 
UTF-8。 


jcode 库 可 以 不 使 用 正则 表达 式 ， 利 用 开放 类 的 功能 ， 使 得 字符 串 的 方 
法 可 以 处 理 多 字 市 文字 。 图 6-17 给 出 的 例子 是 加 载 jcode 库 之 后 ， 像 
tr 这 样 的 字符 串 操 作 方 法 能 够 正确 处 理 多 字 市 文字 。 





#! /usr/bin/ruby -Ke 
s = "abcde" 
p s.tr("a-z", "A - Z") # =>" Z 桥 \332" 


require "jcode" 
p s.tr("a-z", "A -2")#=>"ABCDE™" 











图 6-17 用 jcode 库 对 tr 方法 进行 功能 扩展 


tr 方法 可 以 替换 文字 。 图 6-17 是 将 半角 的 字母 替换 为 全 角 大 写 的 字 
母 。 但 是 ， 在 加 载 jcode 库 之 前 的 缺 省 状态 下 ，tr 方法 不 能 正确 地 处 
理 多 字 节 文字 ， 文 字 发 生 了 乱码 (Z 桥 .…) 。 


加 载 jcode 库 之 后 ，tr 方法 “理解 了 ”多 字 节 文字 ， 所 以 正确 进行 了 和 蔡 
换 处 理 ， 全 部 将 换 成 了 全 角 大 写 的 字母 。 


jcode 替换 表 6-4 中 的 String 类 的 方法 ， 实 现 对 多 字 节 文字 的 处 理 。 
表 6-4 中 “破坏 性 的 方法 "是 指 将 字符 串 本 身 进行 替换 的 方法 。 例 

如 ，s.squeeze 把 字符 串 s 中 连续 的 文字 压缩 成 1 个 文字 来 返回 一 个 
新 的 字符 串 。 而 “的 方法 则 是 蔡 换 字符 串 本 身 内 容 ，s.squeezel 改变 
变量 s 本 身 所 指向 的 字符 串 。 


表 6-4 jcode 库 中 丛 换 的 String 类 的 方法 


删除 字符 串 未 尾 的 1 个 文字 
chop 的 破坏 性 方法 
删除 指定 的 文字 
delete 的 破坏 性 方法 
指定 文字 的 次 数 〈 追 加 ) 
































jsize |jlength 的 别名 (追加 ) 
文字 的 反 转 (1.9 版 ) 
reverse 的 破坏 性 方法 (1.9 版 ) 


squeeze 连续 文字 的 压缩 


squeeze! 


SUCC 


succ 的 破坏 性 方法 











可 生 

tr 的 破坏 性 方法 
替换 文字 同时 做 连续 文字 压缩 

tr_s 的 破坏 性 方法 


在 多 处 引用 同一 个 对 象 的 情况 下 ， 使 用 破坏 性 方法 会 导致 意 想不到 的 字 
符 吕 改写 ， 所 以 有 一 定 危 险 性 。 但 是 ， 因 为 不 需要 生成 新 的 对 象 ， 执 行 
性 能 会 有 所 改善 。 


下 面 来 看 看 jcode 是 如 何 实现 对 字符 串 单 位 进行 操作 的 。 图 6-18 是 
jcode 库 定义 的 String 类 的 delete 方法 的 代码 。 


class String 
def regex quotel(str) 
str.gsub(/(\\T\[\I\- MNDIWN\C.)IC\LI\I\N)/) do 
$1 || $2 || NAN + $3 
end 
end 
DeletepatternCache = {} 











def delete! (del) 
return nil if del == "" 


self.gsub!(DeletePatternCache[del] ||= /[#{_regex quote(del)}]+/,， '') 
end 


def delete(del) 
(str = self.dup).delete!(del) or str 
end 
end 





6-18 delete 方法 的 实现 


delete 使 用 正则 表达 式 的 gsub 方法 。 需 要 注意 两 点 。 首 先 ， 要 删除 
的 字符 串 中 可 能 存在 有 正则 表达 式 中 具有 特殊 含义 的 字符 ， 所 以 用 
_regex_quote 方法 对 这 些 特殊 字符 作 转 义 处 理 ， 其 次 ， 为 了 降低 每 次 
生成 正则 表达 式 的 成 本 ， 在 DeletePatternCache 的 表 中 保存 了 正则 


原 有 方法 在 delete 例子 中 虽然 没有 使 用 ， 但 知 想 要 在 删除 之 后 还 能 使 











用 的 话 ， 可 以 用 alias 起 个 别名 ， 把 原来 的 方法 保存 起 来 。 例 如 ， 在 
新 定义 的 succ 方法 中 ， 当 字符 串 不 包 侣 多 字 节 文字 时 ， 束 使 用 原 有 的 
succ 方法 (参见 图 6-19) 。 








alias original succ! succ! 
def succ! 
# end_regexp 是 匹配 字符 串 末 尾 的 "文字 " 
reg = end regexp 
if $KCODE != 'NONE' && self =~ reg 
succ table = SUCC[$KCODE[6,1].downcase] 
begin 
self[-1] += succ table[self[-1]] 
self[-2] += 1 if self[-1] == 6 
end while self !~ reg 
self 
else 
original_ succ! 
end 
end 








def succ 
str = self.dup 
str.succ! or str 
end 





图 6-19 succ 方法 的 实现 
6.2.5 ”猴子 补丁 的 几 操 问题 


如 上 所 述 ， 开 放 类 和 猴子 补丁 让 我 们 很 方便 地 做 各 种 操作 ， 但 是 它们 也 
有 缺点 。 猴 子 补 丁 动态 地 对 类 进行 变更 ， 从 而 对 程序 整体 产生 了 影响 。 

特别 是 像 mathn 这 样 的 库 是 非常 危险 的 ， 因 为 它 大 幅度 地 改变 了 已 有 

类 的 行为 。 程 序 代 码 本 来 以 为 整数 相 除 会 返回 整数 ， 可 是 如 果 在 东 一 状 
态 下 包含 了 mathn ， 很 难 想到 它 就 是 造成 程序 错误 的 原因 。 到 现在 为 

止 都 是 正常 执行 的 程序 ， 只 因为 一 个 “reduire" 而 发 生 了 错误 。 另 外 ， 在 
多 个 库 都 同时 使 用 开放 类 对 已 有 类 进行 变更 时 ， 如 果 相 互 之 间 发 生 矛 盾 
则 没有 办 法 可 以 避免 。 


考虑 到 这 些 优 缺 后 ， 想 要 正确 使 用 开放 类 ， 安 全 地 打 猴 子 补丁 ， 必 须 尊 
守 以 下 几 条 规则 。 




















基本 上 只 是 追加 功能 

对 类 追加 新 方法 不 会 让 已 有 的 程序 无 法 执行 。 使 用 开放 类 时 ， 主 要 做 不 
容易 导致 问题 的 功能 追加 会 更 保险 。 做 功能 追加 时 ， 如 果 发 生 名 称 重复 
时 会 造成 腑 烦 ， 在 选择 奶 加 的 方法 名 时 需要 慎重 。 

进行 功能 变更 时 要 慎重 ， 尽 可 能 小 规模 

像 mathn 那样 有 本 质 部 分 的 功能 变更 可 能 导致 预想 不 到 的 副 作 

用 。jcode 将 所 有 的 字符 串 处 理 都 丛 换 成 以 文字 单位 来 进行 ， 如 果 整 体 
程序 中 有 茶 处 期 望 的 是 字 节 单位 的 处 理 ， 则 会 引起 误 操 作 。 


利用 开放 类 对 已 有 的 方法 进行 将 换 时 ， 增 加 可 选 参数 ， 或 是 只 在 特定 的 
情况 下 进行 变更 ， 在 一 定 程度 上 保持 兼容 性 的 变更 会 更 保险 。 

小 心 相互 作用 

开放 类 ， 和 继承 、 导 入 等 其 他 处 理 方式 相 比 独立 性 较 低 ， 相 互 之 间 功 能 
容易 受 影 响 ， 所 以 一 定 要 谨慎 使 用 。 妃 加 的 功能 如 果 名 称 发 生 冲 突 ， 两 
边 都 在 使 用 的 话 ， 没 有 解决 这 种 矛盾 的 办 法 。 


i 0 
日 矛盾 。 




















6.2.6 ”其 他 办 法 

猴子 补丁 能 够 不 改变 源 代 码 进行 动态 修正 ， 这 种 灵活 性 是 显示 动态 语言 
柔软 性 和 扩展 性 的 好 例子 。 可 是 ， 实 现 猴子 补丁 的 Ruby 开放 类 有 时 功 
能 过 强 ， 可 能 会 引起 问题 。 


ee 
I 











C# 


C# 和 是 微软 的 .NET 的 中 心 语言 ， 其 热门 表现 目前 还 在 不 断 改 进 。C# 使 用 
部 分 类 和 扩展 方法 来 实现 开放 类 和 猴子 补丁 的 功能 。 














部 分 类 是 指 可 以 在 多 个 场所 进行 分 散 定义 的 类 。 将 类 的 定义 分 散在 多 个 
场所 ， 从 而 实现 了 相当 于 开放 类 的 功能 。 不 过 ， 和 开放 类 相 比较 ，C# 有 
以 下 固有 的 限制 : 


1. 所 有 的 部 分 类 必须 加 上 partial 这 样 的 专用 语 (不 能 在 事后 对 任 
意 的 类 进行 扩展 ) ; 


2. 部 分 类 之 间 不 允许 有 矛盾 《类 不 能 够 航 履 盖 ) 。 


可 以 说 ， 在 开放 类 实现 的 各 种 功能 中 ， 部 分 类 实现 了 可 以 把 类 定义 分 散 
开 来 这 一 特殊 功能 。 

而 扩展 方法 是 指 允许 和 调用 普通 方法 一 样 调用 的 静态 方法 (参见 图 6- 

20) 。 带 this 关键 词 的 static 方法 就 好 像 类 中 的 方法 一 样 被 调用 。 


class StringExtensions 








public static string SwapCase(this string s) 


class ExtensionMethodTest 


{ 


static void Main(string[] args) 
{ 
string s = "Hello World!"; 
Console.Write(s.SwapCase()); 


} 


} 











图 6-20”C# 的 扩展 方法 


不 过 ， 扩 展 方法 不 能 给 已 有 的 方法 加 钩子 ， 或 是 进行 苦 换 ， 因 为 狭义 的 
人 这 也 是 仅仅 实现 了 开放 类 一 部 分 特有 的 性 
页 


~o 


CommonLisp 


CommonLisp 提供 了 叫 CLOS 〈CommonLisp Object System ) 的 面向 对 象 
功能 ， 它 实现 了 和 其 他 面 问 对象 语言 风格 不 同 的 面向 对 象 编程 。Lisp 是 
本 来 融 具 备 开 放 类 功能 的 语言 ， 加 上 和 它 之 后 ，CLOS 具备 了 “方法 结 

合 ” 的 功能 ， 可 以 实现 方法 的 蔡 换 和 钩子 功能 《〈 人 参见 图 6-21) 。 





(defclass example-class () ;; 没有 父 类 


()) ;; 没有 实例 变量 








(defmethod do-something( (param example-class)) 
(print "do something!")) 


(defmethod do-something :before((param example-class)) 
(print "enter do-something")) 


(defmethod do-something :after((param example-class)) 
(print "exit do-something")) 


(setq e (make-instance 'example-class')) 
(do-something e) 

;;; 输出 : 

;;; "enter do-something" 

;;; "do something!" 

;;; "exit do-something" 





图 6-21 使 用 CommonLisp 的 CLOS 功能 的 代码 示例 


在 方法 的 名 字 后 面 加 上 “:before” 或 “:after* 成 为 了 钧 子 。 在 这 个 例子 中 虽 
然 没 有 出 现 ， 还 有 一 个 “:around” 的 指定 ， 实 现 方法 的 蔡 换 。 

前 面 说 到 Lisp 的 面 癌 对 象 功 能 实现 风格 不 同 。 看 了 图 6-21 的 程序 之 

后 ， 0 很 多 人 可 
能 很 困惑 。 


图 6-18 的 程序 调用 方法 用 了 下 面 的 方式 : 


(do-something e) 


相对 于 Ruby 使 用 的 方式 : 








e.do-something 


在 调用 方法 的 印象 上 确实 比较 弱 ， 好 像 只 是 在 调用 函数 。 


但 事实 上 ，do-something 这 个 函数 《代表 了 多 个 方法 的 函数 ， 可 称 为 
泛 型 函数 ) 根据 参数 类 的 不 同 选择 适当 的 方法 。 不 管 看 起 来 给 人 的 印象 
和 
式 是 一 样 的 。 


这 种 写法 接 下 来 还 有 别 的 含义 。 和 把 操作 对 象 前 置 的 形式 不 同 ， 函 数 形 
式 不 区 分 操作 对 象 和 其 他 参数 ， 因 此 ，CommonLisp 在 函数 有 多 个 参数 
时 ， 根 据 参数 类 的 组 合 而 确定 不 同 的 方法 。 像 这 样 根据 多 个 类 的 组 合 而 
调用 方法 称 为 多 重 方法 (multi-method) ， 它 是 CommonLisp 面向 对 象 
编程 的 特点 。 


一 般 的 面 癌 对 象 语言 ， 方 法 从 属于 类 ， 选 择 方法 名 来 调用 。 而 
CommonLisp 的 方法 从 属于 名 字 泛 型 函数 ) ， 由 参数 的 类 〈 和 群 ) 来 选 
择 。 我 们 有 趣 地 看 到 ， 同 样 是 面 问 对 象 编程 ， 不 同 的 侧面 就 像 是 纵 切 和 
横 切 下 去 那样 ， 呈 现 的 面貌 很 不 一 样 。 


人 


面 癌 方面 


面 癌 方面 的 目的 是 要 分 离 出 横 癌 关联 的 共通 侧面 。 面 癌 对 象 语言 把 程序 
分 割 成 对 象 单 位 ， 但 世上 并 不 是 所 有 的 共通 侧面 都 能 分 割 成 对 象 单 位 。 
横 问 关联 涉及 多 个 对 象 的 处 理 ， 共 通 侧面 虽然 只 有 一 个 ， 却 断断续续 地 
分 散 到 多 个 类 中 。 


比如 ， 关 于 “记录 日 志 ” 这 个 处 理 ， 想 要 记录 日 志 的 类 有 多 个 ， 那 么 在 这 
个 或 那个 类 里 都 要 有 记录 日 志 的 处 理 。 本 来 是 想 在 一 个 地 方 集中 处 理 所 
关心 的 事情 ， 但 因为 程序 构成 已 经 被 分 割 成 类 的 形式 ， 横 路 了 多 个 类 的 
这 个 方面 无 法 总 结 在 一 起 。 


像 这 样 横路 了 多 个 类 的 共同 关注 的 事 束 是 方面 (aspect) 。 字 典 上 





























aspect 的 解释 有 “外 观 、 样 子 、 局 面 、 见 解 等 ”。 按 照 关 心 的 事 来 划分 、 
记述 并 组 合 而 成 的 程序 称 为 面 回 方面 编程 。 文 持 这 种 记述 的 语言 称 为 面 
向 方面 的 语言 。 

从 可 以 直接 记述 这 方面 的 意义 来 看 ，Ruby 不 是 面向 方面 语言 。 但 是 ， 
Ruby 非常 灵活 ， 利 用 它 的 反射 功能 《操作 程序 本 身 的 功能 ) 可 以 实现 
面向 方面 编程 的 库 ， 也 就 是 AspectR 。AspectR 是 Avi Bryant 和 
Robert Feldt 的 作品 。 


使 用 AspectR 的 最 初 的 例子 如 图 6-22 所 示 。 

















require 'aspectr' 






打 猴 子 补丁 的 对 象 类 ( 同 图 6-15) 


class ExampleClass < Object 

def do _ something 

p "do_something!" 

end 
end 


打 补丁 的 对 象 方法 


作 某 种 处 理 , 比如 输出 


"do_something!" 


class Logger < AspectR: :Aspect 
def log_enter (method, object, exitstatus, *args) 
p "enter #{method}" 
end 


def log_exit (method, object, exitstatus, *args) 
p "exit #{method}" 
end 
end 


Logger .new .wrap (ExampleClass, :log_enter, :log_exit, 
:do_something) 


e = ExampleClass .new 生成 ExampleClass 对 象 
e.do_somethinm 
# 输出 S 调用 do_something 方法 


# "enter do_something" 
# "do_something!™" 
# "exit do_something" 


图 6-22 ”使 用 AspectR 的 记录 输出 


方面 定义 为 AspectR: :Aspect 的 子 类 。 在 这 个 类 中 定义 作为 钩子 的 方 
法 。 本 例 中 定义 了 在 执行 方法 之 前 调用 的 log_enter 方法 和 执行 方法 
之 后 调用 的 log_exit 方法 。 这 样 的 方法 称 为 通知 Cadvice ) 。 在 前 
面 执 行 的 称 前 置 通知 (before advice ) ， 后 面 执行 的 称 后 置 通知 
(after advice ) 。CommonLisp 有 环绕 执行 方法 本 身 的 环绕 通知 
(around advice ) ， 但 是 AspectR 没有 。 


调用 AspectR 的 advice 方法 的 参数 如 下 : 








方法 名 字符 串 ) 

操作 对 象 

终止 信息 〈 返 回 值 、 异 第 ) 
传递 给 原 方法 的 参数 











涟 玉 六 溢 


Sp Op Op Op 
N 


1 
2 
3 
4 








before advice 在 方法 执行 前 调用 ， 没 有 终止 信息 。 它 的 值 总 是 nil 


为 了 使 用 像 这 样 定义 的 方面 ， 必 须 把 它 和 实际 的 类 连接 起 来 。 于 是 先生 
成 方面 类 的 对 象 ， 调 出 wrap 方法 把 类 和 方面 连接 起 来 。wrap 方法 的 参 
数 如 下 。 








类 

before advice 名 (或 是 nil) 
after advice 名 (或 是 nil) 
钩子 对 象 的 方法 名 











洋洋 洋 六 


WOUDPp 
NR 


2 后 





图 6-18 的 程序 只 挂 了 一 种 钩子 ， 所 以 生成 方面 的 对 象 之 后 马上 吕 调 用 
wrap 方法 。 如 果 定 义 了 多 个 钩子 ， 或 者 为 了 能 在 之 后 卸 下 钧 子 ， 就 需 
要 把 方面 对 象 保存 在 某 个 变量 中 。 图 6-15 的 程序 和 图 6-22 的 程序 动作 
都 是 完全 相同 的 。 需 要 注意 的 是 ，ExampleClass 类 的 定义 部 分 只 记述 
了 ExampleClass 的 处 理 本 身 ， 把 记录 日 志 这 样 所 关心 的 事 完全 分 离 到 
Logger 类 里 了 。 如 果 某 一 天 不 需要 记录 日 志 的 时 候 ， 不 管 有 多 少 方法 
曾经 记录 日 志 ， 只 要 把 给 ExampleClass 类 赋予 记录 日 志 功 能 的 相关 行 
删除 掉 ， 就 可 以 把 日 志 功 能 全 部 伯 除 了 。 如 果 把 日 志 功 能 分 散在 各 个 方 
法 中 的 话 ， 撮 除 的 时 候 就 会 很 麻烦 了 。 




















6.2.7 ”Ruby on Rails 和 开放 类 


使 用 Ruby on Rails 之 后 ， 经 常会 友 现 在 Rails 以 外 的 Ruby 程序 中 不 怎 
么 见得 到 的 表现 方式 。 比 如 下 面 的 代码 。 


expire = 2.weeks.ago 








此 代码 照 一 般 的 Ruby 程序 理解 的 话 会 是 : 对 2 这 个 整数 对 象 调 用 
weeks 方法 ， 对 返回 值 再 调用 ago 方法 ， 把 它 的 返回 值 赋 给 变量 
expire 。 这 么 解释 好 像 是 没有 疑问 。 但 问题 是 ，Ruby 标准 的 整数 对 象 
中 没有 定义 叫 weeks 的 方法 。 


实际 上 ，weeks 是 Rails 的 构成 部 分 之 一 的 Activesupport 库 提 供 的 方 
法 。ActiveSupport 利用 Ruby 的 开放 类 功能 ， 对 Ruby 标准 提供 的 类 
大 胆 地 追加 了 功能 。weeks 方法 是 其 中 之 一 。 


要 点 在 于 ，ActiveSsupport 库 像 打 猴子 补丁 那样 对 整数 类 追加 了 
weeks 、ago 这 些 方法 。 这 种 大 胆 性 可 以 说 正 是 Ruby on Rails 的 重要 特 











本 人 从 以 前 就 开始 使 用 Ruby， 这 种 大 胆 让 我 感觉 有 点 尝 。 而 对 于 从 

Rails 开始 使 用 Ruby 的 人 来 说 ， 反 过 来 ， 没 有 这 类 的 方法 可 能 就 觉得 不 

好 用 吧 。 像 前 面 提 到 的 这 些 ， 标 准 库 提供 的 功能 对 于 程序 语言 给 人 的 印 

象 会 产生 很 大 影响 。 比 如 利用 了 Activesupport 从 Rails 入 门 到 Ruby 

0 Ruby 入 门 的 人 ， 尽 管 是 对 同样 的 Ruby， 各 人 的 印象 也 会 
很 AN 上 日 | 。 


下 面 ， 概 括 一 下 ActiveSsupport 追加 的 功能 以 及 它们 的 使 用 方法 。 





6.2.8 ”ActiveSupport 带 来 的 扩展 

ActiveSupport 库 对 于 Ruby 语言 提供 了 各 种 各 样 的 扩 

展 。ActiveSupport 库 整 体 具有 相当 的 规模 ， 先 来 对 奶 加 的 功能 按 有 
目的 不 同 作 个 大 致 的 分 类 。 


首先 ， 看 看 时 间 和 时 刻 的 操作 。ActiveSupport 库 对 于 Numeric 
、Time 等 类 追加 了 时 间 和 时 刻 的 操作 ， 比 如 前 面 说 的 “2.weeks.ago”。 


具体 来 说 ， 定 义 了 表 6-5 中 的 那些 方法 3 。 
3 表 6-5 中 的 seconds 等 复数 名 词 也 定义 了 单数 名 词 的 别名 。 
表 6-5 ”ActiveSupport 库 中 关于 时 间 的 方法 








ZI 
CC 


方法 名 功 
方法 名 功 能 


ago(t=Time .now) 从 现在 开始 过 去 的 n 秒 


until(t=Time.now) ago 的 别名 


since(t=Time.now) 从 现在 起 未 来 n 秒 


from_now(t=Time.now) since 的 别名 


Time 类 


方法 名 

















change(options ) 新 时 刻 


advance(options) 未 来 的 时 上 


ago(sec) 过 去 的 时 旧 ] 


since(sec) 未 来 的 时 间 











months_ago(n) 





months_since(n) 


years_ago(n) 





years_since(n 


Er 


last month J 


beginning_ of week 周 的 开始 











midnight 当天 的 00:00 











beginning_of_year 和 


那么 ， 整 数 类 的 weeks 方法 返回 了 什么 样 的 值 呢 ? 我 们 来 看 一 看 。 


2.seconds 
5.hours 
1.month 





间 间 大 半 
II IN | 


31557666 


1.year 





看 起 来 是 返回 了 相应 时 间 的 秒 数 。1 个 月 是 按 30 天 ，1 年 是 按 365.25 
天 计算 的 。 


Time 类 的 change 方法 和 advance 方法 的 参数 比较 复杂 ， 在 这 里 解释 
一 下 。change 方法 的 参数 是 指定 了 年 (:year ) 、 月 (C:month ) 、 日 
(:mday)、 时 (:hour)、 分 (:min ) 、 秒 (:sec ) 以 及 微 秒 
(:Uusec ) 的 哈 希 表 。 时 刻 的 各 要 素 通 过 名 字 来 指定 ， 比 较 方便 。 未 指 
定 的 要 素 按 本 来 的 时 刻 来 算 。 


例如 ，2009 年 的 今天 ， 以 下 语句 会 获取 和 今天 同月 、 同 日 、 同 时 刻 的 
Time 对 象 。 


Time.now.change(:year=>2069 ) 


advance 方法 也 是 同样 接受 可 省 略 的 哈 希 表 参 数 ， 哈 希 表 中 可 以 指定 
:years”“:months ”，“:days”， 各自 代 表 年 、 月 、 日 的 增 量 。 想 获 
取 1 年 零 3 个 月 之 后 的 时 刻 ， 写 法 如 下 : 


Time.now.advance( :years=>1, :months=>3) 








对 于 时 刻 的 操作 会 频 粽 出现 ， 能 够 像 英语 似 的 表达 方式 2.weeks.ago 也 
许 能 让 人 局 兴 。 虽 然 这 么 说 ， 但 对 于 整数 类 导入 这 样 的 方法 感觉 过 于 大 
胆 ， 现 在 还 未 真正 导入 到 Ruby 中 。 


这 样 的 “冒险 ”能 在 库 的 层次 上 推进 ， 可 以 说 是 开放 类 的 威力 吧 。 
6.2.9” 字 节 单 位 系列 


计算 机 的 世界 里 经 常 碰 到 千 、 兆 、 百 兆 等 单位 。 日 常生 活 中 虽然 已 经 熟 
知 “ 千 是 1000 倍 ?的 意思 ， 但 对 于 百 兆 是 多 少 倍 可 能 有 些 人 就 不 能 马上 

反应 过 来 。 特 别 是 ， 计 算 机 世界 以 二 进 数 为 度量 单位 ， 千 不 是 1000 倍 

而 是 1024 倍 4 的 说 法 ， 听 起 来 就 更 奇怪 了 。 


4IEC (国际 电工 委员 会 ) 在 1999 年 规定 ， 为 了 和 ISO 单位 明确 区 分 开 ，1024 倍 称 为 kibi， 再 
1024 倍 称 mebi， 再 1024 倍 称 gibi。 不 过 ， 此 规定 未 获得 推广 。 


























ActiveSupport 能 够 减轻 这 样 的 麻烦 ， 导 入 了 一 些 方法 (参见 表 6-6) 
可 以 容许 下 面 的 计算 : 








45 .K 


lobytes + 2.6.megabytes 
任 备 


i 
5 同样 准备 了 kilobyte 这 样 的 单数 别名 。 



































表 6-6 ”向 Numeric 类 追加 的 字 节 


单位 系列 方法 
太 汪 名 

















bytes 


kilobytes 1024 倍 (219 倍 ) 


megabytes 220 倍 
gigabytes 230 倍 
terabytes 240 倍 





























petabytes 250 倍 
6.2.10 ”复数 形 和 序数 


日 语 里 单数 复数 没有 什么 区 别 ， 但 是 英语 里 有 明确 的 区 分 。 因 此 ， 我 们 
追加 了 专用 的 方法 。 比 如 ，pluralize 方法 可 以 让 单数 变 成 复数 。 




















"box" .pluralize # => boxes 
"ox" .pluralize # => oxen 
"fish".pluralize # => fish 





也 有 方法 用 来 操作 多 个 单词 连 在 一 起 的 符号 “参见 图 6-23) 。 


"fish burger".camelize # => "FishBurger" 
"SoapDish".underscore # => "soap_dish" 











图 6-23 ”操作 复数 单词 的 方法 举例 
对 于 整数 退 加 了 序数 方法 : 
1.ordinalize # => "1st” 


3.ordinalize # => "3rd” 
4.ordinalize # => "4th” 








像 这 样 对 名 字 进 行 操 作 的 方法 在 英语 圈 可 能 会 受 欢 迎 。 但 Ruby 是 在 日 
本 开发 的 ， 对 导入 这 种 以 英语 为 特定 语言 的 语法 操作 的 方法 有 抵触 感 。 
不 过 像 这 种 以 库 的 形式 对 方法 进行 退 加 也 许 效果 会 更 好 。 





6.2.11 大 规模 开发 和 Ruby 


经 常 听 到 “Ruby 不 适用 于 大 规模 开发 "这 样 的 说 法 。 这 当然 不 是 诸 无 根 
据 的 说 法 ， 有 它 的 道理 。Ruby 做 大 规模 开发 可 能 会 出 现 的 问题 主要 有 
下面 








编译 时 不 作 类 型 检查 


Ruby 不 实际 执行 的 话 束 检查 不 出 类 型 的 不 一 臻 。 像 Java 那样 在 编译 时 
就 严格 作 类 型 检查 一 定 会 被 查 出 来 的 错误 ， 有 可 能 在 Ruby 中 就 补漏 把 
了 。 因 此 有 人 认为 ， 大 规模 程序 的 可 靠 性 就 下 降 了 。 


但 是 再 细 一 想 ， 程 序 的 错误 并 不 都 是 因为 类 型 不 匹配 造成 的 。 当 然 ， 类 
型 不 匹配 是 较 容 易 发 现 的 错误 。Ruby 在 执行 时 作 类 型 检查 ， 也 就 是 说 
执行 时 会 严格 检查 类 型 。 大 规模 程序 为 了 保证 可 靠 性 一 定 会 有 严格 的 测 
试 程序 。 如 果 作 了 严格 的 测试 ， 在 编译 时 作 类 型 检查 的 优点 束 不 像 所 说 
的 那么 重要 了 。 


没有 包 


Java 对 于 构成 库 的 类 和 文件 有 独立 的 包 ， 要 想 具 备 某 种 功能 ， 必 须 明 确 
地 进行 Import 操作 。 而 Ruby 是 不 具备 这 种 功能 的 。 所 以 ， 库 定义 的 
类 和 模块 名 是 全 局 的 ， 从 任何 地 方 都 可 以 引用 。 因 此 ， 可 以 说 名 称 重复 
的 危险 性 很 大 。 


不 过 ，Ruby 有 处 理 命 名 空间 的 类 或 模块 。 只 要 把 库 适 当地 组 织 好 ， 发 
生 名 称 问 题 的 危险 性 也 不 见得 会 有 那么 高 吧 。 


但 在 Ruby 中 ， 当 互相 独立 开发 的 库 凑 巧 定 义 了 同名 的 类 时 ， 问 题 就 没 
有 那么 容易 解决 了 。 在 这 种 情况 下 ， 有 必要 对 库 的 源 代码 进行 修正 。 这 
样 考虑 的 话 ， 人 危险 性 不 能 说 是 零 ， 而 Java 的 包 在 这 种 情况 下 束 能 解决 
问题 ， 所 以 可 能 党 得 更 好 。 


存在 开放 类 

最 后 就 是 本 章 说 明 的 开放 类 。 已 经 讲述 过 ， 开 放 类 有 这 样 的 缺点 : 各 自 
独立 的 库 发 生 互 相 巴 盾 的 变更 时 ， 问 题 不 能 简单 解决 。 这 也 可 能 在 大 规 
模 开 发 时 引发 问题 。 

6.2.12 ”信赖 性 模型 


但 是 ， 来 看 看 上 述 3 个 方面 会 导致 问题 的 大 规模 开发 是 什么 样 的 情况 
吧 。 






































编译 时 作 类 型 检查 能 发 挥 重要 作用 ， 意 味 痢 不 能 充分 执行 单元 测试 。 实 

际 上 ， 对 于 规模 很 大 的 程序 整体 作 严 格 的 测试 ， 光 测试 本 号 就 要 花 好 多 

0 
Ruby。 


因为 不 存在 包 而 出 问题 或 者 因为 开放 类 会 出 问题 ， 这 可 能 是 因为 项 目的 
构成 要 素 之 间 不 太 可 能 相互 调整 。 如 有 果 把 运用 规则 确定 好 ， 对 各 个 子 项 
目 把 模块 分 层次 控制 好 的 话 ， 应 该 就 没有 问题 。 如 果 这 都 做 不 到 的 话 ， 
互相 之 间 应 该 就 是 关系 很 坏 吧 。 或 者 说 各 个 子 项 目 都 是 各 自 随便 使 用 外 
部 库 ， 所 以 担心 发 生 同 名 冲突 。 这 样 的 项 目 也 不 适合 用 Ruby。 


Ruby 的 这 3 个 方面 ， 依 赖 于 Ruby 和 用 户 ， 或 者 项 目的 各 成 员 间 的 “人 
赖 ?关系 。 也 就 是 所 谓 的 性 善 说 。 用 户 不 会 故意 做 坏事 情 ， 如 果 发 生 问 
题 的话 会 互相 帮助 解决 ， 这 是 Ruby 所 采取 的 姿态 。 


和 和 相对 的 是 性 恶 说 ， 即 融 不 应 该 发 生 这 些 问题 。 不 能 说 哪 一 边 更 糖 
糕 ， 而 是 信赖 性 和 灵活 性 的 权衡 罢了 。 


总 而 言 之 ， 像 一 部 分 人 所 说 的 那样 ， 在 某 种 类 型 的 大 规模 开发 中 ，Ruby 
的 性 质 会 造成 问题 ， 或 者 说 造成 问题 时 解决 起 来 不 像 其 他 语言 那么 容 

易 ， 这 种 现象 是 现实 中 可 能 存在 的 。 如 果 认 为 这 些 是 问题 的 话 ， 可 能 不 
使 用 Ruby 会 更 好 。 但 是 ， 到 现在 为 止 我 们 看 到 的 情况 表明 ， 会 发 生 那 
种 问题 的 大 规模 开发 本 来 就 绝 不 是 好 的 开发 状况 。 在 我 看 来 ， 首 先 要 做 
的 ， 当 然 是 把 项 目的 信赖 关系 改善 到 可 以 使 用 Ruby 的 程度 。 就 算 最 后 
没 使 用 Ruby， 这 也 是 应 该 先 做 到 的 事情 。 


6.2.13 ”猴子 补丁 的 未 来 


猴子 补丁 虽然 有 一 定 的 危险 性 ， 但 有 兹 也 有 利 ， 它 也 提供 了 方便 性 、 扩 
展 性 和 灵活 性 。 像 这 样 危险 和 威力 并 存 的 情况 ， 让 人 想起 之 前 的 goto 
语句 。 以 前 曾经 是 程序 语言 的 标准 控制 结构 的 goto 语句 ， 随 着 结构 化 
编程 的 及 展 ， 被 更 安全 的 控制 结构 取代 了 。 与 此 相似 ， 开 放 类 和 利用 它 
0 0 0 
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另外 ， 虽 然 本 节 未 作 介绍 ， 但 为 了 避免 因为 开放 类 而 改变 整体 状态 的 问 
题 ， 对 于 selector namespace 和 class box 的 研究 也 快要 实用 化 
J 了 


像 这 样 “ 驯 服 开 放 类 ?是 将 来 Ruby 研 完 的 重大 课题 。Ruby 2.0 会 对 这 一 
领域 做 茶 种 程度 的 实质 探索 。 


Ruby on Rails 的 秘密 


本 章 介 绍 的 Ruby on Rails 是 在 2004 年 问世 的 Web 应 用 框架 ， 因 其 生 
产 效 率 高 而 成 为 近年 来 推进 Ruby 执行 的 原动力 。 


本 人 基本 上 没有 使 用 Rails 的 经 验 ， 所 以 本 章 内 容 没 有 基于 Rails 本 
身 ， 而 是 从 Ruby 的 观点 讲解 了 Rails 使 用 的 特征 性 技术 。 我 不 擅长 
Web 类 的 编程 。 








Ruby on Rails 是 2004 年 丹麦 程序 员 David Heinemeier Hansson 开发 
的 。 记 不 住 他 名 字 的 人 很 多 ， 经 常 称 他 为 DHH。 他 本 来 是 PHP 的 程 
序 员 ， 虽 然 对 Ruby 感 兴趣 ， 但 在 实际 的 工作 中 并 没有 使 用 。DHH 为 
美国 的 37signals 公司 在 上 自己 家 里 上 班 ， 那 个 时 候 使 用 的 是 叫 
Basecamp 的 项 目 管 理 系统 ， 因 为 它 的 复杂 性 而 感到 了 PHP 的 局 限 。 
于 是 ， 他 不 顾 周围 反对 而 转移 到 Ruby， 结 果 成 就 了 Ruby on Rails。 


经 党 作为 Rails 的 特征 而 介绍 的 是 DRY (Don't Repeat Yourself) 和 
CoC (Convention over Configuration， 约 定 胜 于 配置 ) 。DRY 是 避免 
反复 (重复 ) 从 而 提高 生产 效率 的 原则 ，CoC 是 简化 配置 ， 重 视 约 
定 ， 在 一 般 情况 下 ， 这 一 原则 排除 明确 的 配置 ， 从 而 使 程序 变 得 简 
洁 。 这 些 性 质 都 是 在 应 用 平台 上 非常 受 欢 迎 的 ， 所 以 在 Rails 之 后 也 
有 很 多 Web 应 用 框架 采用 这 些 原则 。 


可 是 ， 决 定 Rails 生产 效率 的 并 不 仅仅 是 DRY 或 是 CoC， 而 主要 是 
利用 了 Ruby 的 元 编程 功能 ， 几 了 乎 可 以 说 达到 了 恶性 滥用 的 程度 。 动 











态 定 义 方法 ， 用 猴子 补丁 来 蔡 换 类 ， 简 直 是 无 所 不 能 。 可 是 ， 正 是 因 
为 这 样 的 彻底 发 挥 才 实现 了 Rails 的 强大 功能 ， 而 且 使 之 成 为 可 能 的 
正 是 Ruby 的 灵活 性 和 兼容 并 鞋 的 宽大 胸怀 。 所 以 ， 本 书 没 有 说 明 
Rails 本 号 的 使 用 方法 ， 而 是 着 力 于 说 明了 之 所 以 让 Rails 成 为 Rails 
,| 功能 和 编程 技巧 。 当 然 ， 原 因 之 一 也 是 我 本 人 不 擅长 Web 应 


关于 Rails 还 有 一 个 谜团 ， 即 为 什么 起 名 为 "Ruby on Rails” 呢 ? 一般 的 
软 什 名 字 都 是 1 个 单词 或 是 "形容词 + 名 词 ”， 很 少见 到 “A on B” 这 种 
形式 。 退 一 步 讲 ， 怎 么 说 也 应 该 是 Ruby 语言 在 下 才 对 啊 。 以 前 就 想 


见 到 DHH 时 直接 问 他 ， 不 过 一 直 没 有 机 会 。 上 次 见面 时 又 完全 瑟 记 
问 了 。 


第 7 和 章 文字 编 伍 
7.1 文字 编码 的 种 类 


计算 机 能 够 处 理 图 像 、 动 画 以 及 各 种 应 用 程序 固有 的 、 多 种 多 样 的 数 
据 。 但 是 从 CPU 的 层次 来 看 ， 计 算 机 所 处 理 的 各 种 数据 都 是 用 比特 
ON/OFF 所 表现 的 二 进 制 数 字 。 


初期 计算 机 主要 用 于 炮弹 的 弹道 计算 等 ， 所 以 专门 针对 数值 计算 而 做 的 
特殊 设计 也 当然 是 最 为 理想 的 。 但 现在 的 计算 机 纯粹 用 于 数值 计算 的 已 
经 越 来 越 少 了 。 像 天 气 预 报 、 结 构 计 算 或 科学 实验 等 的 HPC (高 性 能 计 
算 ) 都 由 超级 计算 机 或 是 超级 并 行 计算 机 来 进行 数值 计算 。 但 一 般 计 算 
机 所 处 理 的 数据 ， 绝 大 部 分 都 是 以 茶 种 文字 形式 出 现 的 文本 数据 。 


7.1.1 早期 的 文字 编码 


为 了 让 本 来 只 能 表示 二 进 制 数 的 计算 机 能 够 处 理 文字 ， 就 必须 将 文字 变 
换 为 相应 的 数字 。 这 种 对 应 于 文字 的 数值 就 称 为 文字 编码 。 


由 于 历史 的 原因 ， 文 字 编 码 遇 到 过 各 种 各 样 的 困难 和 读 题 。 


初期 的 计算 机 是 在 灿 语 国家 发 展 起 来 的 ， 计 算 机 能 处 理 的 文字 也 是 从 英 
文字 母 开 始 的 。 英 文字 母 只 有 A 到 Z 这 26 个 字母 ， 没 有 元 首 变 首 (0 
上 加 两 点 ) 、 声 调 (e 上 加 声调 ) 这 些 东 西 ， 处 理 起 来 比较 方便 ， 这 也 
许 与 初期 计算 机 的 发 展 也 有 点 关系 吧 。 


表现 英文 的 文字 字符 集 的 历史 很 悠 入 ， 其 中 有 代表 性 的 当 数 1963~1964 
年 设计 的 EBCDIC ( Extended Binary Coded Decimal Interchange Code ) 
和 1960 年 开始 制定 的 ASCII ( American Standard Code for Information 
Interchange) 。 


EBCDIC 由 美国 IBM 公司 定义 ， 主 要 用 于 大 型 机 及 办 公用 计算 机 “〈 据 


说 有 一 部 分 现在 还 在 用 ) 。 但 现在 EBCDIC 已 经 不 是 主流 ，ASCII 以 及 
受 其 影响 的 文字 编码 成 为 主流 。 











ASCI 码 由 7 位 二 进 制 数 构成 ， 可 以 表现 英文 字母 、 数 字 和 一 些 记号 
($、& 等 ) ， 共 128 个 字符 。 这 带 来 的 一 个 好 处 就 是 ， 对 于 通信 和 单位 
的 字 节 《8 位 ) 来 说 ， 可 以 省 出 1 位 ， 用 于 附加 错误 检测 码 。 


这 在 通信 的 可 靠 性 还 很 低 的 时 代 ， 是 一 个 很 难能可贵 的 性 质 。7 位 
ASCII 码 能 够 将 把 整个 字 节 的 8 位 全 部 用 于 文字 编码 的 EBCDIC 码 淘 
汰 ， 也 许 就 是 因为 这 个 原因 。 

表 7-1 及 表 7-2 是 ASCII 编码 表 。 比 如 ， 符 号 “*” 由 十 六 进 制 的 2A， 十 进 
制 的 42 表示 。Hello! 这 个 字符 串 由 72、101、108、108、111、33 (十 
进 制 数 ) 来 表示 。 


表 7-1 ASCII 码 表 〈 十 六 进 制 ) 





表 7-2 ASCII 码 表 〈 十 进 制 ) 
aaafanaTaTmlw[aoloa 
0 ( 2 < F 了 Z d n X 





EE 
| | 本 


7.1.2 ” 纸 融 与 文字 表现 
本 书 读者 中 ， 我 想 很 多 人 都 没 现场 看 过 1966 年 开始 放映 了 不 到 一 年 的 








第 一 代 《 超 人 》。 但 也 许 有 人 在 重播 的 电影 中 看 见 过 操作 员 一 边 看 着 计 
算 机 吐出 的 市 孔 纸 带 ， 一 边 念 着 “ 东 泵 湾 出 现 怪兽” 那 种 情景 。 


实际 上 纸 带 上 每 排 有 8 个 孔 ， 用 于 表示 一 个 字 节 (参见 图 7-1) 。 每 排 
的 图 案 代表 一 个 字符 。 操 作 员 记 住 了 代表 每 个 字符 的 穿孔 图 案 ， 所 以 也 
就 能 读 出 纸 带 上 穿孔 图 案 所 代表 的 文字 内 容 。 不 要 说 终端 屏幕 ， 就 连 打 
印 机 都 还 比较 稀有 的 时 候 ， 纸 带 就 已 经 是 很 了 不 起 的 输出 设备 了 。 





























本 
图 7-1 纸 带 扩大 图 。 一 列表 示 一 个 字 节 。 中 间 一 排 小 孔 不 是 用 于 数 
右边 一 列表 示 DEL 


而 且 ， 纸 带 还 可 以 通过 纸 带 该 入 露 再度 该 入 计算 机 ， 所 以 纸 带 也 作为 存 


储 器 使 用 。 当 时 的 程序 大 多 是 通过 读 纸 带 来 执行 的 。 一 旦 纸 带 上 的 程序 
有 了 bug， 只 能 用 甬 刀 将 纸 帝 味 嗓 嘎 喀 盘 掉 ， 然 后 再 接 上 修正 的 方法 ， 











请 


， 而 是 用 于 运转 纸 带 。 最 


ou 














成 为 恰 如 字 面 意义 上 的 补丁 。bug 〈 虫 ) 这 个 词 ， 也 是 因为 计算 机 的 继 
现在 听 起 来 像 个 笑话 的 事 ， 在 当 
时 却 是 很 平常 


1 patch 的 第 一 个 意思 是 打 补 丁 。 


还 有 一 个 老 故 事 。ASCII 码 中 ， 删 除 字符 串 所 用 的 DEL 也 分 配 了 一 
编码 127〈 十 六 进 制 的 0x7F) 。 这 是 为 什么 呢 ? 0x7F 的 7 位 全 部 都 是 
ON， 用 DEL 履 盖 既 有 字符 时 ， 既 有 字符 束 全 部 消失 了 。 如 果 不 知 道 纸 
带 的 故事 ， 这 也 是 很 难 想象 的 。 














7.1.3 ”文字 是 什么 


在 学 习 文 字 编码 的 细节 之 前 ， 先 讲解 一 下 关于 文字 编码 的 专用 语 (参见 
表 7239) 。 


表 7-3 与 文字 编码 相关 的 专用 语 














的 符号 








gbyph 个 别 文字 py 





分 配 了 文字 编码 的 文字 的 集合 
分 配给 每 一 个 文字 的 编码 


在 计算 机 上 表现 文字 编码 的 方式 



































首先 是 文字 ， 这 相当 于 人 使 用 的 一 个 个 文字 ， 但 是 事情 并 没有 那么 简 
单 。 比 如 日 文 假名 的 太 字 ， 将 它 看 做 是 带 浊 点 的 单个 平 假名 ， 还 是 看 做 
平 假名 办 (一 个 字 0 要 视 具 体 
情况 而 定 。 顺 便 说 一 下 ， 个 别 文字 的 字形 称 为 glyph? 。 


2 汉字 数据 的 “二 ”和 片 假名 的 “二 ”字形 很 相似 ， 却 是 不 同 的 字 。 


我 不 知道 世上 到 底 有 多 少 文 字 ， 但 要 算 上 十 代 的 文字 ， 再 加 上 根据 需要 
随意 创造 的 记号 、 图 画 和 符号 ， 这 个 数字 事实 上 是 无 限 的 ， 同 时 处 理 所 
有 文字 是 不 可 能 的 ， 所 以 有 必要 事先 规定 使 用 哪些 文字 。 这 些 文字 的 集 
合 就 称 为 字符 集 (Character set) 。 














比如 ， 刚 才 讲 解 的 ASCII 字符 集 ， 就 是 由 英文 的 大 写字 母 、 小 写字 母 、 
数字 及 特定 记号 所 组 成 的 字符 集 。 除 了 ASCII 字符 集 以 外 ， 还 有 欧洲 语 
言 用 的 ISO8859， 日 语 用 的 JIS X 0208， 以 表现 多 语言 为 目的 的 
Unicode 等 字符 集 。 


字符 集中 ， 每 个 字符 都 分 配 一 个 编码 ， 这 称 为 字符 编码 。 


计算 机 上 仅仅 用 整数 值 来 表示 文字 编码 的 方式 称 为 文字 编码 方式 

(Character Encoding Scheme，CES) 。 一 个 字符 集 对 应 多 种 编码 方式 
并 不 稀奇 。 比 如 JIS X 0208 中 的 编码 方式 就 有 ISO-2022-JP，Shift_JIS， 
EUC-JP 等 几 种 。 这 些 编码 方式 各 有 优 缺 点 ， 使 用 状况 也 不 一 样 。 同 
样 ， 对 于 Unicode， 也 有 UTF-8、UTF-16BE、UTF-16LE、UTF-32BE 
和 UTF-32LE 等 编码 方式 。 


这 里 所 举 的 各 种 字符 集 和 文字 编码 方式 ， 后 面 还 要 个 别 说 明 。 


虽然 严格 来 讲 ， 文 字 编 码 是 指 分 配给 文字 的 数值 ， 但 一 般 的 对 话 中 ， 使 
用 文字 编码 这 个 词 的 时 候 ， 有 时 也 包含 字符 集 或 文字 编码 方式 等 意思 。 
在 本 章 的 标题 文字 编码 中 也 隐 含 了 这 种 意思 。 


7.1.4 走 癌 英语 以 外 的 语言 (欧洲 篇 ) 


为 了 表现 英语 以 外 的 欧洲 语言 ，26 个 文字 通常 不 够 。 于 是 就 使 用 ASCII 
中 没有 使 用 的 第 8 位 来 表现 文字 。 第 8 位 一 用 ， 就 可 以 再 表现 128 个 文 
字 。 虽 然 错 误 检 测 码 不 能 再 用 了 ， 但 由 于 信息 传送 的 可 靠 性 提高 了 ， 好 
像 也 没什么 问题 。 

即便 同 是 欧洲 语言 ， 各 语种 中 必须 要 加 的 字符 也 有 所 不 同 ， 于 是 就 为 每 
个 文化 圈定 义 了 不 同 的 文字 集 ， 文 字 集 之 间 切 换 使 用 ， 这 就 是 ISO 
8859。 现 在 ，ISO 8859 中 定义 了 16 种 文字 集 ， 列 于 表 7-4 中 。 


表 7-4 ISO 8859 的 构造 


























标 准 分 部 名 内 容 《〈 使 用 所 定义 文字 的 语言 ) 








ISO8859-2 Latin2 | 波兰 语 、 捷克 语 、 匈 牙 利 语 等 
ISO8859-3 Latin3 | 二 本 其 语 、 马耳他 语 、 世 界 语 等 


ISO8859-4 Latin-4 爱沙尼亚 语 、 拉 脱 维 亚 语 、 立 陶 宛 语 等 






































TSo8859-5 | Lativcyrilic 俄语 、 保 加 利 亚 语 、 等 
A 


ISO8859-10 Latin-6 (Latin-4 重 新 定义 ) 爱沙尼亚 语 、 拉 脱 维 亚 语 、 江 陶 宛 i 





























ISO8859-11 Latin/Thai 泰国 语 


印度 各 语言 〈1997 年 中 断定 义 ， 成 为 废 
但 ) 

ISO8859-13 Latin-7 Baltic Rim Latin-4 与 Latin-6 的 追加 文字 
ISO8859-14 Latin-8 Celtic 苏格兰 的 凯 尔 特 语 、 布 尔 顿 语 


ISO8859-15 Latin-9〈 改 订 Latin-1 ) 欧元 货币 符 、 法 语 辅 助 符 等 


ISO8859-16 阿尔 巴 尼 亚 语 、 意 大 利 语 、 罗 马 尼 亚 ; 


ISO 8859 所 上 履 兰 的 语言 ， 不 管 哪 一 种 ， 其 字符 数 都 在 256 个 以 下 ， 只 要 
将 文字 编码 以 字 节 为 单位 排列 起 来 就 可 以 表现 了 。 所 以 这 些 语言 的 字符 
编码 方式 跟 ASCII 一 样 是 字 节 列 。 


这 样 欧洲 圈 的 问题 束 大 体 解决 了 。 但 有 些 情况 下 ， 想 同时 使 用 德语 (第 
一 部 分 ) 和 俄语 (第 五 部 分 ) 等 多 种 文字 集 。 这 样 ， 束 需要 有 在 同一 篇 
文章 中 切换 不 同文 字 集 的 机 制 。 


定义 这 种 机 制 的 ， 就 是 ISO2022。ISO2022 是 一 个 规模 庞大 而 复杂 的 规 
范 ， 这 里 不 再 详 述 。 基 本 上 是 以 ESC 文字 (0x1b) 为 开头 的 ESC 串 来 
进行 文字 集 之 间 的 切换 。 正 如 后 面 所 述 ，ISO2022 的 机 制 也 用 在 了 日 语 
等 亚洲 语系 的 文字 编码 中 。 


7.1.5 ”英语 以 外 的 语言 (亚洲 篇 ) 

计算 机 刚 开始 在 日 本 使 用 的 时 候 ， 不 能 处 理 汉字 及 假名 。 所 以 ， 日语 只 
能 用 罗马 字 来 表示 ， 这 太 不 方便 了 ， 束 用 与 ISO 8859 同样 的 方法 定义 
了 包含 片 假名 的 文字 集 ， 这 就 是 1969 年 定义 的 JIS XX 0201 (参见 表 7- 
5) 3 。 现 在 还 偶尔 能 见 着 JIS X 0201 在 使 用 ， 也 就 是 半角 片 假 名 。 


表 7-5 JISX 0201 编码 表 





ISO8859-12 Latin/Devanagari 




















EE 
EE 
[oT | | J 























3 JIS X 0201 是 ASCII 的 扩展 字符 集 ， 但 历史 上 曾经 使 用 过 往 EBCDIC 中 追加 平 假名 而 形成 的 
EBCDIK (日 立 制作 所 》。 











JIS X 0201 的 7 位 部 分 与 ASCII 相当 4 ，8 位 都 用 时 用 以 表示 假名 。 


4 但 是 ，JIS XxX 0201 中 以 ¥ (日 元 符 〉 来 表示 0x5C (ASCII 中 是 \) ， 以 ” (上 划 线 ) 来 表示 
0x7E (ASCII 中 是 ~) 。 

















但 我 们 平常 使 用 的 并 不 只 是 片 假名 。 于 是 1978 年 又 制定 了 包含 我 们 平 
常 使 用 的 平 假名 、 片 假名 以 及 汉字 的 文字 集 JIS X 0278。 当 初 以 JISC 
6226 开始 标准 化 ， 从 1990 年 的 修正 版 开始 称 为 JIS X 0208。 


0 吾 在 内 的 亚洲 语系 ， 大 家 都 知道 ， 与 欧洲 语系 比 起 





来 ， 文 字 种 类 得 多 。JIS X 0208 有 6879 个 字符 (其 中 汉字 6355 
0 


上 第 一 个 用 多 字 节 表现 一 个 文字 的 字符 集 。 
JIS X0208 用 16 位 (2 个 字 节 ) 来 表现 文字 编码 ， 最 初 的 8 位 称 为 区 ， 





后 面 8 位 称 为 点 。 各 个 区 和 点 分 别 对 应 ASCII 码 中 可 以 表示 ? 的 文字 ， 
所 以 JIS X 0208 有 94 个 区 ， 每 个 区 有 94 个 点 。 每 个 文字 用 n 区 m 点 
这 种 形式 的 坐标 来 指定 。 比 如 ， 平 假名 的 故 为 4 区 2 点 ， 汉 字 松 为 30 
区 30 点 。 


5 ASCII 中 可 以 表示 的 文字 是 表 7-2 中 所 示 的 十 进 制 数 33 对 应 的 “4” 到 126 对 应 的 “~”， 共 94 个 


子 付 。 
既然 一 个 字 不 能 用 一 个 字 节 来 表示 ， 就 必须 用 茶 种 形式 的 复数 字 贡 来 定 


义 ， 这 就 是 文字 编码 方式 。JIS X 0208 的 文字 编码 方式 分 为 3 大 类 ， 即 
Shift JIS 和 EUC-JP 和 ISO-2022-JP (JIS 码 ，Junet 码 )。 


























Shift_JIS 


Shift JIS 虽然 以 两 个 字 节 来 表示 JIS X 0208 的 字符 ， 为 了 利用 本 来 已 经 
存在 的 半角 假名 ， 束 避 开 了 半角 假名 的 空间 ， 也 融 是 错开 了 这 部 分 空 

间 。 错 开 这 个 词 在 英文 中 是 Shift，Shift JIS 因此 得 名 。 这 种 编码 方式 在 
微软 系列 操作 系统 中 长 期 使 用 ， 所 以 通称 MS 汉字 人 码 6 。 

6 微软 曾经 将 Shift_JIS 称 为 CP932。1983 年 , 日 本 IBM 和 NEC 分 别 独自 扩展 了 CP932，1993 


年 ， 微 软 将 “NEC 特殊 字符 ”和 “IBM 扩展 字符 ”加 入 了 CP932。 也 有 人 将 CP932 称 为 “MS 汉字 
但 ”。 














Shift_ JIS 以 两 个 字 节 来 表示 JIS X 0208 的 字符 。 第 一 个 字 节 使 用 与 JIS 
X0201 不 重复 的 空间 (0x81~0x9f，0xe0~~0xfc) ， 第 二 个 字 节 使 用 更 
广泛 的 空间 〈0x40 一 0x7e，0x80~-0xfc) ， 包 括 重复 的 部 分 。Shift_JIS 
中 ， 平 假名 的 加 以 0x82 0xa0 来 表示 ， 汉 字 的 松 以 0x8f 0xbc 来 表示 。 


Shift JIS 的 最 大 优点 是 它 最 为 普及 。 美 国 微软 公司 的 操作 系统 自 MS- 

DOS 以 来 长 期 使 用 Shift_ JIS， 美 国 苹果 公司 的 Mac 操 作 系统 也 是 。 结 

果 ， 所 谓 的 个 人 电脑 上 ，Shift JIS 可 以 说 成 为 事实 上 的 标准 了 。 同 时 ， 

含有 过 去 曾 大 量 用 过 的 半角 假名 的 数据 还 可 以 继续 使 用 ， 这 在 当时 也 是 
很 方便 的 。 

可 是 这 些 优点 逐渐 变 得 不 重要 了 。 现 在 这 两 个 公司 的 操作 系统 逐渐 改 用 
后 面 将 要 介绍 的 Unicode 了 。 半 角 假 名 及 数据 一 点 不 变 直接 利用 ， 已 经 
不 再 是 必然 的 了 。 


Shift JIS 也 有 缺点。 为 了 避 开 半角 假名 空间 ， 第 一 字 节 需要 错开 因而 空 














间 变 窗 ， 第 二 个 字 节 里 ASCII 文字 出 现 了 。 这 样 ， 就 不 能 简单 地 判别 每 
个 独立 的 文字 。 很 多 情况 下 ， 非 得 从 字符 串 的 最 开头 开始 扫描 才能 正确 
判别 字符 串 的 内 容 。 


而 且 ， 第 三 个 字 节 如 果 有 “\* 这 种 可 能 带 有 特殊 意义 的 字符 的 时 候 ， 可 能 
发 生 很 麻烦 的 错误 。 

比如 ， 在 Shift_JIS 中 编写 [ print“ 成 绩 表 ”] 这 种 程序 的 时 候 ， 表 的 第 二 个 
字 节 是 相当 于 从 "的 0x5c， 意 味 着 字符 串 终 问 字符 的 双 引 号 被 转 义 〈 即 
双 引 号 与 结合 被 认 作 别 的 字符 〉 ， 造 成 语法 错误 。 


EUC-JP 











EUC-JP (Extended UNIX Code for Japanese 是 完全 无 视 半 角 假 名 的 空 
间 ， 从 而 使 与 JIS X 0208 的 相互 转换 变 得 简单 化 的 一 种 字符 编码 方式 。 
EUC-JP 广泛 用 于 UNIX 系列 操作 系统 中 的 日 语 处 理 。 为 了 得 到 某 个 字 
的 EUC-JP 码 ， 只 要 将 JIS X 0208 码 中 字 节 的 第 8 个 位 置 设 为 1 (ON) 
就 行 了 。EUC-JP 虽 没 有 为 半角 假名 保存 空间 ， 但 并 不 是 不 能 表示 半角 
假名 ， 而 是 在 JIS X 0201 的 文字 编码 前 面 放置 一 个 0x8e 的 方式 来 表示 ” 











7 例如 ，7 (JIS X0201 中 是 B1) 以 8EB1 表示 。 





与 Shift_ JIS 比 起 来 ， 构 成 EUC-JP 码 的 多 字 节 文字 的 每 一 个 字 节 的 第 8 
位 都 是 ON， 所 以 有 容易 识别 、 字 符 串 处 理 简 单 、 不 易 出 错 等 优点 。 也 
不 存在 0x5c 问题 (问题 ) 。 

男 一 方面 ， 因 为 与 包含 半角 假名 的 数据 不 兼容 ， 想 维护 过 去 的 数据 时 稍 
稍 有 些 不 便 。 还 有 ， 处 理 半角 假名 时 ， 以 两 个 字 节 来 表示 ，Shift_JIS 所 
具有 的 文字 显示 宽度 与 字 节 长 度 相 同 这 一 优点 也 失去 了 。 


ISO-2022-JP 











ISO-2022-JP 以 ESC 字符 串 来 切换 ， 使 用 ISO2022 框架 8 来 表示 JIS X 
0208 文字 集 ， 又 称 JIS 码 ， 或 JUNET 码 。 

















8 虽然 不 使 用 ESC 字符 串 ， 但 EUC-JP 也 是 在 ISO2022 框架 的 范围 内 的 。 


从 ASCII 以 外 的 文字 集 切 换 到 ASCII 文字 集 时 ， 先 送 一 个 3 字 节 的 字 








符 串 ESC(B。 切 换 到 JIS X 0208 文字 集 时 ， 送 另外 一 个 3 字 节 的 字符 串 
ESC $B。 所 以 ，ISO-2022-JP 中 要 表示 “去 2 十 上 matz” 时 ， 就 成 为 图 7- 
2 所 示 的 18 个 字 节 。 


Ke 
ib wa4 M2 24 Se 24 A4 24 2 24: 4 ,Ib 2842 0 61 T7474 
JIS X 0208 开始 ASCII 开 始 


| 一 一、 
二 ES， t 。 1 


图 7-2 ISO-2022-JP 中 所 表示 的 “去 局 十 上 matz” 


ISO-2022-JP 每 过 到 ESC 字 符 串 束 改 变 状 态 。 也 就 是 说 ， 即 便 是 同样 的 一 
串 字 节 ， 也 会 因为 最 近 出 现 的 ESC 字 符 串 的 不 同 ， 而 表现 不 同 的 文字 
集 ， 上 有 具有 不同 的 意义 。 这 样 的 字符 编码 方式 称 为 stateful( 带 状态 )。 


反之 ， 像 Shift_JIS、EUC-JP 那 种 不 带 状态 的 方式 称 为 stateless 〈 不 带 状 
态 ) 。 带 状态 的 字符 编码 方式 在 计算 机 内 部 处 理 时 摘 得 很 复杂 ”。ISO- 
2022-JP 主要 用 于 邮件 及 网 络 新 闻 等 通信 和 领域 。 


9 比如 ， 从 一 个 字符 串 的 中 间 开 始 读 出 ， 如 果 不 回 蛮 到 前 面 的 ESC 字符 串 ， 就 不 能 够 确定 处 理 
内 容 。 

















ISO-2022-JP 作为 通信 用 字符 编码 方式 而 被 采用 的 主要 原因 在 于 ， 以 
前 ， 但 也 并 不 是 很 久 以 前 ， 所 使 用 的 邮件 系统 中 将 通信 内 容 的 第 7 位 给 
屏蔽 了 。 像 邮件 、 新 闻 那 样 ， 在 到 达 最 终 地 址 之 前 ， 要 经 过 多 个 服务 
器 ， 不 能 因为 一 部 分 系统 的 问题 而 丢失 信息 ， 安 全 性 尤为 重要 ， 所 以 第 
8 位 专用 于 校 验 。 


实际 程序 中 处 理 日 语 的 时 候 ， 内 部 一 般 用 Shift_JIS 或 EUC-JP 来 处 理 通 
信用 的 ISO-2022- 卫 码 。 





其 他 文字 集 
再 要 使 用 多 字 节 的 不 只 有 日 语 。 除 日 本 以 外 的 亚洲 国家 或 地 区 也 都 各 上 自 


定义 了 相应 的 文字 集 ， 像 中 国 的 GB 2312 (EUC-CN) 、 韩 国 的 KS X 
1001 (EUC-KR) 以 及 中 国 台 湾 的 Big 51 等 ， 都 是 有 代表 性 的 文字 集 
(括号 内 是 编码 方式 ) 。 


10 Big5《〈 大 五 码 ) 并 非 公共 标准 ， 而 是 由 Acer 等 5 家 电脑 制造 商 自 主 定 义 的 文字 编码 。 由 于 
这 个 原因 ， 文 字 集 与 文字 编码 方式 没有 分 开 。 















































7.1.6 ” Unicode 的 问世 


各 个 国家 都 定义 了 自己 使 用 的 文字 编码 ， 结 果 世 界 上 充满 了 各 种 文字 编 
码 。 特 别 是 在 日 本 ， 光 是 日 常 使 用 的 文字 编码 就 有 3 种 (Shift_JIS、 
EUC-JP 和 ISO-2022-JP) ， 它 们 还 不 能 统一 成 一 种 。 虽 然 没 有 日 本 那么 
严重 ， 但 如 果 不 是 使 用 26 个 拉丁 字母 的 国家 ， 或 多 或 少 都 有 类 似 问 


匮 。 


如 末 软 件 只 局 限于 一 国 一 语 ， 并 没有 太 大 问题 ， 但 往往 不 是 那样 。 只 使 
用 瑞 语 的 美国 和 英国 的 企业 ， 将 本 国 开发 的 软件 扩展 到 海外 及 别 的 语言 
圈 时 ， 也 会 遇 到 问题 。 


为 了 解决 这 个 问题 ， 开 始 了 两 种 动向 。 一 个 是 ISO 1064611 ， 以 定义 应 
该 成 为 新 时 代 的 ASCII 的 文字 编码 体系 为 目的 。 男 一 个 是 Unicode， 在 
苹果 、 微 软 等 软件 公司 主导 (正确 来 讲 是 Unicode consortium) 下 定 
义 。 虽 然 近期 二 者 还 会 对 立 ， 但 因为 定义 重复 的 文字 编码 是 个 浪费 ， 以 
后 会 统一 为 一 种 。 


11 国际 标准 化 组 织 定 义 ASCII 的 是 ISO 646 标准 ， 因 此 使 用 了 10646 这 个 名 称 。 


本 来 对 于 ISO 10646 的 方案 ， 软 件 处 理 上 虽 有 点 费事 ， 但 很 通用 。 所 

以 ， 最 后 决定 统一 为 Unicode 标准 的 时 候 ， 包 括 我 在 内 ， 很 多 人 都 觉得 
可 惜 。 但 现在 想起 来 ， 如 果 不 能 达成 妥协 ， 两 种 标准 都 残留 下 来 的 话 ， 
会 比 现 在 有 更 大 的 悲剧 ， 统 一 了 还 是 好 。 


Unicode 最 初 的 目的 是 把 世界 上 的 文字 都 映射 到 16 位 空间 中 去 。 也 就 是 
说 ， 当 初 预想 ， 如 果 能 用 65536 个 文字 二 来 涵盖 世界 各 国 的 各 种 语言 文 
字 的 话 ， 我 们 残 可 以 给 每 个 文字 分 配 一 个 唯一 的 编码 。 



































12 216 =65536 (文字 ) 。 


正 因 如 此 ， 运 今 为 止 以 8 位 为 单位 的 字符 串 ， 今 后 则 以 16 位 为 单位 来 
表示 。 这 称 为 UCS-2 (2 byte Universal Character Set) 。 


7.1.7 ”统一 编码 成 16 位 的 汉字 统合 


如 果 将 各 国 使 用 的 字符 编码 一 成 不 变 地 都 收 进来 ，65536 个 字符 怎么 都 
不 够 。 于 是 ， 对 于 字符 个 数 最 多 的 汉字 ，Unicode 中 就 将 中 国 、 日 本 和 


韩国 所 使 用 的 意思 相同 的 汉字 分 配 了 同一 个 编码 。 这 称 为 Han 
Unification 《汉字 统合 ，CJK 汉字 统合 ) 。 其 中 Han 是 “ 汉 ” 的 中 国 读 
A 

日 o 


结果 ， 既 存 的 文字 编码 与 Unicode 之 间 的 变换 不 能 通过 计算 来 实现 ， 只 
能 通过 内 存 效率 低 的 变换 表 来 实现 。 而 且 不 能 表现 语言 之 间 字 体 的 不 
同 。 比 如 说 ， 汉 语 的 “ 骨 ” 与 日 语 的 “ 骨 ”， 上 半 部 分 内 部 的 小 方块 的 位 置 
不 一 样 。 但 在 Unicode 中 被 分 配 了 同一 个 文字 编码 。 

但 Han Unification 也 不 是 只 有 人 缺点， 像 在 文字 排序 和 检索 的 时 候 ， 有 超 
越 语 言 、 处 理 简 单 的 优点 。 比 如 检索 有 关 毛 译 东 的 文章 的 时 候 ， 用 
Unicode 的 话 ， 能 跨越 语言 ， 不 管 是 汉语 还 是 日 语 的 文章 ， 都 能 随便 检 


为 、 9 











以 上 的 16 位 文字 与 Han Unification 是 初期 的 Unicode 的 显著 特征 。 
7.1.8 Unicode 的 两 个 问题 


选择 16 位 文字 的 Unicode 有 两 大 副作用 ， 一 个 是 字 节 顺序 (byte 
order) 的 问题 ， 一 个 是 NUL 文字 问题 。 


计算 机 中 表现 16 位 整数 的 时 候 ， 关 于 字 节 顺序 〈 字 节 按 何 种 顺序 排 
列 ) 有 两 个 流派 。 一 个 称 为 ]little endian13 ， 低 位 的 8 位 先 放 。little 
endian 在 美国 英特尔 公司 的 x86 系列 CPU 中 广泛 使 用 。 男 一 个 称 为 big 
endian， 为 美国 SUN 公司 的 SPARC 等 CPU 所 采用 。 

















13 little endian 和 big endian 这 两 个 词 ， 来 源 于 英国 讽刺 作家 斯 威夫 特 所 著 的 《 格 列 佛 游记 》 

(1726 年 ) 。 第 一 篇 Lilliput 国航 行 记 中 讲述 ， 剥 鸡蛋 从 尖 的 那 一 头 开始 剥 的 Lilliput 国 (ittle 
endian) 与 从 圆 的 那 一 头 开 始 剥 的 Blefuscu 国 〈big endian) 之 间 战 争 的 故事 。 战 争 的 原因 在 于 
剥 鸡蛋 的 方法 有 分 歧 。 


将 16 位 字符 串 的 UCS-2 写 入 文件 时 ， 使 用 哪 种 endian 是 个 重要 问题 。 
选 了 一 方 的 话 ， 在 另 一 方 的 CPU 上 处 理 时 要 花 更 多 成 本 。 结 果 ， 
Unicode 选 了 一 种 模棱两可 的 解雇 方案 一 一 哪 种 都 可 以 。 作 为 补偿 ， 将 
BOM 标志 〈byte order mark, BOM) 放 在 文件 头 ， 以 此 判别 文件 中 所 含 
文本 的 字 市 顺序 。 


BOM 也 分 到 了 一 个 号码 0xfeff。 这 个 号 码 的 字 节 顺序 反 转 以 后 得 到 的 号 






































码 0xfffe 在 Unicode 中 是 空 号 ， 所 以 移 读 文件 的 前 两 个 字 节 ， 如 采 有 是 
0xff、0xfe 的 话 ， 这 个 文件 的 字 市 顺序 就 是 little endian， 反 之 则 是 big 
endian。 如 果 先 头 两 个 字 节 既 不 是 0xff， 也 不 是 0xfe， 就 假定 字 节 顺序 是 
big endian 。 


如 果 字 符 串 里 混入 了 非 BOM 的 标签 ， 程 序 处 理 起 来 就 变 得 复杂 了 。 在 
先头 以 外 的 地 方 混 入 BOM， 或 者 稀里糊涂 忘 了 在 先头 放 BOM 的 情况 
总 会 有 吧 。 最 重要 的 是 ， 字 节 顺 序 一 旦 错 了 ， 会 引起 可 怕 的 文字 乱码 ， 
所 以 字 节 顺序 很 重要 。 


除了 字 节 顺序 以 外 ，16 位 字符 串 引 起 的 问题 ， 还 有 一 个 叫 NUL 文字 问 
题 。 


传统 C 语言 处 理 的 字符 串 ， 一 般 有 一 个 终端 文字 NUL (0’) 。 但 是 作 
为 16 位 文字 的 字符 串 ， 中 途 会 出 现 NUL 文字 。 所 以 ，C 语言 中 处 理 字 
符 串 的 传统 函数 (strcpy 、strcmp ) 不 能 用 于 16 位 文字 的 字符 串 。 
像 Java 那样 的 语言 ， 一 开始 就 是 以 16 位 文字 为 前 提 而 设计 的 ， 所 以 没 
什么 问题 。 但 以 C 语言 处 理 16 位 文字 的 时 候 ， 需 要 全 新 的 API。 

















7.1.9 ”Unicode 的 文字 集 


单 说 Unicode 的 时 候 ， 往 往 是 指 作 为 文字 集 的 Unicode。Unicode 每 次 更 
新 版 本 的 时 候 ， 都 要 奶 加 文字 ， 现 在 几乎 吉 括 了 世界 上 存在 的 所 有 文 
字 1!4 。2006 年 7 月 制定 的 Unicode 5.0， 实 际 上 包含 了 99024 个 文字 。 




















14 公元 前 1400 年 左右 ， 和 希腊 使 用 的 “ 线 文字 B” 等 历史 上 的 文字 也 放 进 去 了 。 


现在 比 Unicode 更 大 的 文字 集 只 存在 两 个 。 一 个 是 大 约 16 万 字 的 “今昔 
文字 镜 ”， 一 个 是 17 万 字 的 “TRON code”…”。 从 实用 的 角度 看 ,“ 有 了 
Unicode 就 能 表现 世界 上 的 文字 ”这 种 说 法 也 并 非 言 过 其 实 。 


15 “今昔 文字 镜 ”(http:Wwww.mojikyo.com/ ) 以 应 用 程序 的 形式 提供 ， 包 含 重 复 文 
字 。“TRONcode”(http://www2.tron.org/troncode.html ) 有 意 增 加 了 一 些 重 复 文字 。 


Unicode 有 一 个 非 第 好 的 优点 ， 那 束 是 它 不 光 收 集 了 世界 上 的 文字 ， 而 
且 同 时 提供 了 包含 文字 的 名 称 、 由 来 、 意 思 以 及 文字 类 别 等 信息 的 数据 
库 。 这 样 ， 即 便 是 读 不 出 来 的 文字 也 能 够 处 理 。 









































但 它 并 不 是 只 有 优点 ， 有 3 个 问题 产生 。 第 1 个 难点 ， 因 为 不 断 增加 文 
字 ， 文 字数 已 经 突破 了 16 位 数 的 界限 65535。 单 纯 的 16 位 编码 方式 已 
经 不 能 表示 这 么 多 字 ， 显 露出 当初 Unicode 构想 的 不 合理 之 处 。 


现在 ，Unicode 放弃 了 16 位 方式 ， 而 用 21 位 来 表示 一 个 文字 。 现 在 
Unicode 的 有 效 编码 范 围 是 0~0x10ffff， 能 够 表示 111 万 4111 个 文 
字 。 不 管 有 多 少 字 ， 这 肯定 够 用 了 。 


7.1.10 ”文字 表示 的 不 确定 性 
Unicode 的 男 一 个 难点 是 为 了 表示 某 个 文字 ， 可 以 有 多 种 方法 。 比 如 


说 ,日文 假名 办 〈( 读 作 GA) ， 既 可 以 看 做 是 “304C- 平 假名 字母 GA”， 
站 








和 邓 运 的 是 ，Unicode 中 定义 了 称 为 正规 化 Cnormalization ) 的 手续 。 虽 说 
有 点 麻烦 ， 但 可 以 将 文字 往 尽 可 能 紧 凌 的 方向 ， 或 者 往 尽 可 能 分 散 的 方 
问 统一 。 


第 3 个 难点 ， 这 不 能 怪 Unicode， 而 是 因为 历史 原因 。 但 以 Unicode 处 
理 日 语 的 时 候 ， 是 一 个 不 可 避免 的 问题 。 


ASCII 中 0x5C 被 分 配给 了 “^\”( 反 和 斜 杜 ) ， 但 在 JIS X 0201 及 Shift_ JIS 
被 分 给 了 [ 因 《 日 元 符 )。 在 Shift_JIS 的 全 盛 期 ， 用 户 需 要 用 反 斜 杠 
时 ， 用 同一 内 码 的 日 元 符 就 可 以 了 ， 不 需要 明确 区 别 。 


比如 国外 用 \n 〈( 反 和 斜 杠 +n〉 来 表示 换行 符 ， 日 本 用 ¥9 (日 元 符 +n) 来 
表示 ， 这 些 都 无 大 碍 。 


但 是 ，Unicode 中 定义 了 反 和 斜 杜 和 日 元 符 两 个 字符 。 这 样 在 把 旧 文 档 转 
换 到 Unicode 的 时 候 ， 就 无 法 自动 判断 ， 像 旅行 费 ¥50 000 的 时 候 该 用 
日 元 符 ， 而 print "hello\n" 的 时 候 要 用 反 和 斜 枉 了 。 


另外 还 有 多 个 字符 也 有 类 似 的 问题 。 














7.1.11 ”Unicode 的 字符 编码 方式 


为 了 表示 Unicode 文字 集 ， 有 多 种 编码 方式 。 主 要 有 3 种 : UTF-8、 





UTF-16 和 UTF-32。 根 据 字 节 顺序 ，UTF-16 和 UTF-32 又 各 自 可 以 分 为 
2 类 ， 分 别 是 UTF-16BE (big endian) 、UTF-16LE (little endian) 、 
UTF-32BE (big endian) 和 UTF-32LE (little endian) 。 


UTF-8 


UTF-8 为 可 变 长 的 ， 与 ASCII 具有 兼容 性 的 编码 方式 。 也 就 是 说 ， 将 
ASCII 字符 串 当 做 是 UTF-8 字符 串 来 处 理 也 不 会 有 问题 。 说 得 形象 一 
点 ， 世 上 的 ASCII 码 文件 摆 起 来 比 山 还 高 ， 这 是 一 个 很 方便 的 性 质 。 


另 一 个 特征 是 以 UTF-8 编码 的 字符 串 ， 不 含 NUL 文字 。 可 以 作为 通常 
人 
质 


NO 





UTF-8 以 一 定式 样 的 字 节 组 合 来 表示 Unicode 中 的 21 位 文字 (参见 表 
7-6) ， 这 样 ， 操 作 UTF-8 字符 串 时 ， 可 以 利用 以 下 便利 性 。 


表 7-6 UTEF-8 的 字 节 组 合式 样 及 性 质 


字 节 组 合式 样 值 的 范围 
110xxxxx 10XXXXXX 80-07FF 


。 第 一 字 节 第 8 位 (最 上 位 ) 不 是 ON 的 字 节 ， 表 示 1 字 节 文字 
(ASCII 的 空间 ) 。 


。 只 要 看 第 一 字 节 位 的 式样 就 能 知道 接 下 来 还 有 几 个 字 节 ， 数 数 有 几 
位 是 1 就 行 了 。 
多 字 节 文字 的 各 个 字 节 ， 除 了 第 一 字 节 以 外 ， 都 以 10 开始 (第 8 


位 是 1， 第 7 位 是 0) 。 即 便 不 从 字符 串 的 先头 开始 扫描 ， 也 能 知 
道 构 成 这 个 文字 的 第 一 个 字 节 在 哪里 。 




















。 采 用 以 字 节 为 单位 的 编码 方式 ， 没 有 字 节 顺序 问题 。 


以 上 性 质 ， 对 于 内 部 程序 处 理 字 符 串 非常 方便 。 另 外 ， 又 没有 字 节 顺序 
问题 ， 在 外 部 处 理 时 也 很 有 用 。 


但 是 ，UTF-8 也 有 缺点 。 


。 消费 过 多 的 内 存 。 如 果 仅 限于 ASCII 空间 ， 则 与 ASCII 相同 。 但 
几乎 所 有 的 汉字 ， 都 要 占用 3 个 字 节 。 


。 构成 文字 的 字 节 数 是 可 变 的 ， 因 而 在 随机 访问 字符 串 中 的 任意 文字 
时 ， 代 价 与 字符 串 的 长 度 成 比例 。 


但 随 着 计算 机 内 存 的 容量 和 性 能 的 提高 ， 到 了 现在 ， 无 视 这 些 缺 点 也 无 
所 谓 了 。 比 如 ， 即 使 UTF-8 占用 的 内 存 是 Shift_JIS 的 1.3 倍 ， 以 GB 为 
单位 的 内 存 和 以 TB 为 单位 的 硬盘 ， 现 在 都 很 容易 得 和 到了， 这 些 问题 已 
经 不 成 为 问题 了 。 反 倒 比 接 下 来 讲述 的 UTF-16 和 UTF-32 更 有 好 处 。 
还 有 ， 随 机 访问 有 代价 问题 ， 但 从 长 年 处 理 Shift JIS 和 EUC-JP 等 可 变 
i 
氏 下 的 情况 。 


UTF-16 











Unicode 中 能 以 16 位 表示 的 空间 就 以 16 位 为 单位 来 表示 ， 超 过 16 位 空 
间 的 就 以 称 为 代理 对 (surrogate pair ) 的 两 个 16 位 码 的 组 合 来 表 
示 。 以 前 ，Unicode 只 包含 16 位 就 能 表示 的 那些 字 的 时 候 ，UTF-16 被 
称 为 UCS-2。 


但 是 ，Unicode 文字 和 集 从 2.0 版 开始 超越 了 16 位 的 界限 ， 到 现在 缺点 已 
经 很 突出 了 。 


目 从 UTF-16 成 为 可 变 长 之 后 ， 不 光 失 去 了 UCS2 所 具有 的 16 位 固定 长 
的 优良 特性 ， 还 增加 了 字 节 顺序 等 以 前 并 不 存在 的 问题 。 所 以 ，UTF- 
16 已 经 没什么 优点 了 ， 个 人 认为 ， 从 今 以 后 ， 没 有 必要 再 采用 这 种 字 
符 编 码 方式 了 。 昌 说 这 样 ， 以 前 选择 16 位 编码 方式 (当时 是 UCS-2， 
现在 是 UTF-16) 的 平台 还 存在 ， 完 全 抛弃 也 不 行 。 采 用 UTF-16 的 平台 
有 Windows 《文件 路 径 的 编码 方式 ) 和 Java (字符 串 处 理 ) 等 。 





UTF-32 


UTF-32 采用 4 字 节 固定 长 的 编码 方式 。 耗 费 的 内 存量 ， 在 ASCII 空间 
是 4 倍 ， 在 汉字 空间 也 有 1.3 倍 ， 因 为 这 些 原因 ， 所 以 没什么 人 气 。 虽 
然 如 此 ， 因 为 固定 长 ， 可 以 随机 访问 ， 作 为 内 码 也 有 些 有 利 的 性 质 ， 但 
存在 字 节 顺序 的 问题 ， 不 推荐 作为 外 部 编码 。 


UTF-32 用 得 不 是 很 广泛 ， 在 Linux 的 libc 所 提供 的 通配符 字符 串 中 有 
用 到 。 











7.2 程序 中 的 文学 处理 


首先 复习 一 下 关于 文字 编码 的 几 个 专用 语 。 先 确认 一 下 文字 编码 、 文 字 
集 和 文字 编码 方式 这 3 个 专用 语 的 区 别 。 时 不 时 被 称 为 文字 编码 的 
EUC-JP、Shift JIS 和 Unicode， 其 实 是 属于 不 同 的 分 类 。EUC-JP 与 
Shift_JIS 属于 文字 编码 方式 ， 而 Unicode 则 是 文字 集 的 名 称 。 


7.2.1 文字 编码 有 多 个 意思 


计算 机 不 能 处 理 文 字 本 身 ， 束 要 让 文字 与 编码 对 应 。 与 文字 相对 应 的 纺 
码 就 称 为 文字 编码 。 

以 下 要 介绍 的 包含 文字 集 和 文字 编码 方式 在 内 的 文字 处 理 方式 ， 有 时 总 
称 为 文字 编码 。 像 这 样 ， 广 义 的 文字 编码 属于 不 正确 的 表现 ， 在 严密 意 
义 上 讨论 时 我 们 不 用 ， 而 是 使 用 正确 的 文字 集 或 文字 编码 方式 等 词汇 。 


7.2.2 只 能 处 理 文字 集中 包含 的 文字 

前 面 已 经 提 到 ， 计 算 机 让 文字 与 编码 对 应 起 来 进行 处 理 。 反 过 来 说 ， 只 
能 处 理 分 配 了 编码 的 文字 。 分 配 了 编码 的 文字 集合 就 称 之 为 文字 集 。 
比如 说 ， 被 称 为 ASCI 的 文字 集 是 英文 字母 、 数 字 及 一 些 记号 等 被 分 本 


了 127 以 下 编码 的 文字 的 集合 。 日 本 使 用 的 文字 集合 有 ASCII、JIS X 
0201 〈 通 称 半 角 假 名 ) 、JIS X 0208 和 Unicode 等 (参见 表 7-7) 。 


表 7-7 日 本 国内 使 用 的 主要 文字 集 


AsCI “| 英文 字母 、 数 字 、 记 号 96 字 (不 包括 控制 字符 ) 


JIS X 0201 英文 字母 、 数 字 、 记 号 、 半 角 假 名 |159 字 
































员 X0208 | 光学、 各 和 
计划 涵盖 全 世界 的 文字 99024 字 (5.0 版 ) 


7.2.3 ”纷繁 复杂 的 文字 编码 方式 














文字 集 确定 以 后 ， 将 各 个 文字 对 应 的 编码 按 顺 序 排列 起 来 ， 就 可 以 表示 
由 文字 排列 成 的 文本 了 。 


如 果 文 字 集 中 所 用 文字 编码 的 最 大 值 也 小 于 255《〈 例 如 ASCII) ， 各 个 
编码 只 要 一 个 字 节 就 可 以 表示 ， 这 里 就 不 多 说 了。 但 是 ， 在 更 大 的 文字 
集中 ， 必 须要 考虑 内 存 使 用 效率 和 处 理 效率 等 因素 ， 来 决定 计算 机 如 何 
处 理 。 处 置 方法 ， 换 言 之 ， 就 是 把 文字 编码 列 的 表示 方法 称 为 文字 编码 
方式 〈Character Encoding Scheme ) 。 


同一 个 文字 集 有 多 种 文字 编码 方式 的 情形 并 不 罕见 。 比 如 日 本 国内 广泛 
使 用 的 文字 集 JIS X 0208 就 有 ISO-2022-J 了 、Shift JIS 以 及 EUC-JP 等 
几 种 文字 编码 方式 ， 它 们 各 有 优 缺 点 ， 使 用 状况 也 不 同 。 


同样 ， 文 字 集 Unicode 有 UTF-8、UTF-16BE (big endian ) ，UTF- 
16LE (little endian) 、UTF-32BE (big endian) 以 及 UTF-32LE (little 
endian) 等 几 种 文字 编码 方式 。 它 们 也 被 适当 地 分 开 使 用 。 











7.2.4 ”影响 力 渐 微 的 Shift_ JIs 与 EUC-JP 


Shift_ JIS 是 从 MS-DOS 开始 渐渐 使 用 的 面 癌 JIS X 0208 的 文字 编码 方 
式 。 为 避 开 MS-DOS 以 前 曾 使 用 的 JIS X 0201 (半角 假名 〉 空 间 ， 将 要 
分 配 的 编码 适当 错开 ， 因 而 得 名 Shift_JIS。 微 软 系列 操作 系统 和 Mac 
操作 系统 (汉字 Talk) 都 曾 用 过 ， 在 个 人 电脑 领域 具有 压倒 性 的 占有 
率 。 但 近年 来 ，Windows 和 Mac 相继 改 用 Unicode，Shift_JIS 的 重要 性 
日 渐 下 降 。 现 在 已 不 推荐 使 用 。 

EUC-JP 是 为 了 表示 一 个 字 节 表示 不 了 的 ， 像 JIS X 0208 那 种 多 字 节 文 
字 ， 而 将 美国 AT&T 公司 定义 的 EUC (Extended Unix Code) 进行 日 语 
化 而 得 到 的 版 本 。 那 是 面向 UNIX 所 设计 的 。EUC 还 有 面向 韩国 的 版 
本 EUC-KR 和 面 同 中 国 的 版 本 EUC-CN。 


EUC-JP 用 于 UNIX 系列 操作 系统 中 日 语 的 处 理 ， 今 后 仍 会 广泛 使 用 ， 
不 过 逐渐 会 被 Unicode 所 取代 。 


7.2.5 ”Unicode 有 多 种 字符 编码 方式 
日 本 有 JIS X 0208， 中 国有 GB2312， 各 国都 定义 了 表示 本 国语 言 的 文 








字 集 。 这 样 ， 开 发 各 国语 言 都 能 共同 处 理 的 软件 就 很 困难 。 为 了 能 共同 
处 理 全 世界 各 种 文字 ， 就 制定 了 文字 集 Unicode。 


当初 ，Unicode 的 目标 是 在 16 位 (65 535 个 文字 ) 的 范围 内 表示 全 世界 
的 文字 。 当 时 想 ， 有 这 么 多 字 应 该 够 了 吧 。 实 际 上 ， 世 界 上 使 用 的 文字 
比 预想 的 要 多 ， 不 能 够 囊括 在 16 位 的 范围 以 内 。 最 新 的 Unicode 5.0 发 
展 为 包含 了 99 024 个 字 的 巨大 文字 集 。 


Unicode 的 优点 是 ， 对 于 文字 集 里 的 文字 ， 还 定义 了 包含 文字 的 性 质 和 
作用 等 详细 信息 的 数据 库 。 


另外 ， 应 注意 的 一 点 是 ， 根 据 所 谓 汉 字 统 一 〈Han unification ) 的 处 
理 ， 中 日 韩 三 国 意义 几乎 相同 的 汉字 被 分 配 了 同一 个 文字 编码 。 结 果 ， 
0 而 是 需要 定义 一 个 很 大 
和 对 应 表 。 


Unicode 的 文字 编码 方式 ， 从 大 的 方面 分 为 3 种 。 下 面 ， 按 UTF-16、 
UTF-32、UTF-8 的 顺序 来 说 明文 字 编 码 方式 。 




















UTF-16 


Unicode 中 能 以 16 位 表示 的 空间 (Basic Multilingual Plane，BMP) 就 以 
16 位 为 单位 来 表示 ， 超 过 16 位 空间 的 就 以 称 为 代理 对 的 两 个 16 位 码 
(32 位) 的 组 合 来 表示 。 


Unicode 只 定义 了 BMP 领域 文字 的 时 候 ， 被 称 为 UCS-2。UCS-2 是 
Unicode 制定 之 初 推 荐 的 文字 编码 方式 。UCS-2 的 上 位 互 换 方式 为 UTF- 
16， 用 于 Java 中 文字 的 内 部 表示 1 ， 以 及 Windows 和 Mac 操作 系统 的 
文件 名 表示 等 方面 。 

1 为 了 表示 在 计算 机 内 部 处 理 的 文本 数据 而 采用 的 字符 编码 方式 称 为 内 部 表示 。 当 内 部 表示 和 
外 部 表示 不 同 的 时 候 ， 在 读 入 数据 时 要 进行 变换 。 内 部 表示 并 不 要 求 兼容 性 ， 但 希望 处 理 效率 


尺 可 能 要 高 。 


但 现在 Unicode 已 经 超越 16 位 ，UTF-16 也 不 再 有 什么 优点 ， 没 有 必要 
再 采用 这 种 字符 编码 方式 了 。 


UTF-32 


















































UTF-32 以 32 位 整数 来 表示 Unicode。 不 再 有 代理 对 那 种 丑陋 的 机 制 ， 
每 个 字 由 一 个 固定 长 的 数 来 表示 。 随 机 访问 字符 串 中 的 各 个 文字 时 效率 


很 高 。 


但 在 ASCII 中 只 要 8 位 就 能 表示 的 英文 字母 或 数字 ， 在 UTF-32 中 却 要 
占用 32 位 ， 因 而 存在 内 存 使 用 率 低 ， 以 及 字 节 顺序 等 问题 ， 它 不 适用 
于 通信 以 及 文件 保存 等 文本 数据 的 外 部 表示 ， 而 更 适合 用 于 字符 串 处 
理 的 内 部 表示 。 

2 为 了 表示 往 文件 中 保存 的 数据 以 及 通信 中 传输 的 数据 ， 这 种 超越 一 个 程序 范围 的 文本 数据 而 


采用 的 字符 编码 方式 称 为 外 部 表示 。 外 部 表示 并 不 要 求 处 理 效率 ， 但 在 数据 的 空间 效率 、 既 有 
文本 数据 的 互 换 性 、 表 示 的 确实 性 ， 以 及 不 易 发 生 乱 码 等 方面 有 要 求 。 










































































UTF-8 


UTF-8 为 可 变 长 的 ， 与 ASCII 具有 兼容 性 的 字符 编码 方式 。 将 ASCII 字 
符 串 当做 UTF-8 字符 串 来 处 理 也 不 会 有 问题 。 


另外 ，UTEF-8 具有 以 下 特征 。 

。 比 UTF-16 和 UTF-32 内 存 使 用 率 稍 微 高 些 。 

。 没有 字 节 顺序 问题 。 

。 因为 是 可 变 长 的 ， 所 以 文字 的 随机 访问 性 能 低 。 

因为 与 ASCII 具有 兼容 性 ， 而 且 没 有 字 节 顺序 问题 ， 所 以 对 于 外 部 表示 
来 说 ，UTF-8 是 一 种 具有 优良 特性 的 字符 编码 方式 。UTF-8 虽然 也 是 可 
变 长 的 ， 如 果 借 鉴 同 样 也 是 可 变 长 的 Shift_JIS 和 EUC-JP 在 文字 处理 中 
所 积累 的 可 变 长 文字 处 理 方 法 ， 则 在 内 部 表示 领域 也 能 够 充分 利用 。 
7.2.6 ”为 什么 会 发 生 乱 码 

文字 编码 在 理想 情况 下 只 有 一 个 文字 集 ( 比 如 Unicode) 和 一 种 字符 编 
码 方式 〈 比 如 UTF-8) ， 这 样 字符 串 的 处 理 就 会 变 得 很 简单 。 但 现实 中 
却 有 数 不 清 的 文字 集 和 为 数 众 多 的 字符 编码 方式 。 


正 因 如 此 ， 现 实 世 界 中 屡屡 及 生 “ 文 字 乱 码 ” 问 题 。 所 谓 文字 乱码 ， 古 指 
文本 数据 不 能 正确 表示 和 处 理 的 状态 。 文 字 乱 码 虽 然 有 各 种 起 因 ， 但 共 




















同 的 结果 都 是 不 能 正确 表示 。 
接 下 来 ， 按 原因 分 类 ， 看 看 文字 乱码 都 是 怎么 发 生 的 。 








7.2.7 ”字符 编码 方式 错误 
文字 乱码 的 最 大 原因 是 把 程序 的 字符 编码 方式 搞 错 了 。 把 一 种 字符 编码 
方式 的 数据 按 男 一 种 字符 编 码 方式 来 表示 ， 结 果 就 会 完全 不 同 。 汉 字 和 
假名 等 不 能 正确 表示 。 
图 7-3 是 将 EUC-JP 文本 想当然 地 当做 Shift_JIS 而 读 入 的 例子 。EUC-JP 
的 全 和 角 部 分 正好 与 Shift_JIS 的 半角 相当 ， 被 读 作 半角 假名 。 

EUC-JP; Ru by 位 强 


为 
字 节 组 合 : 52 75 62 79 a4cf b6 af ce cf 
Shift JIS: Ru by 、3? 力 y 
术 


























图 7-3 ”由 字符 编码 方式 错误 导致 文字 乱 


几乎 所 有 情况 下 ， 文 本 数据 都 不 附加 文字 编码 方式 的 信息 ， 所 以 容易 引 
起 错误 。 这 里 ， 很 多 应 用 软件 在 读 入 文本 数据 以 后 ， 大 体会 按 以 下 方法 
来 尝试 目 动 检 出 。 


和 
马 方 沪 s 


。 如 宁 不 能 确定 ， 则 按照 文字 的 出 现 频率 来 推测 。 


这 样 并 不 能 100% 确 定 字 符 编 码 方式 。 字 符 编 码 方式 一 旦 错 了 ， 数 据 就 
完全 没有 意义 了 ， 产 生 非 常 显眼 的 字符 乱码 。 

关于 这 一 点 ， 在 邮件 及 经 由 HITP 传送 的 文本 数据 中 可 以 指定 字符 编码 
方式 3 ， 比 单单 只 有 文本 要 强 多 了 。 但 这 个 指定 只 是 选项 ， 并 不 是 任何 
时 候 都 可 以 用 。 


3 邮件 是 指 HITP 邮件 ，HTTP 都 有 content-type 域 ， 可 以 写 入 charset=ISO-8859-1 之 类 的 字符 
编码 方式 的 信息 。 























XML 在 这 方面 很 优秀 。XML 的 规范 中 明确 规定 ， 如 条 不 指定 字符 编码 
方式 ， 则 都 视 为 UTEF-8， 不 会 发 生 “ 不 知道 是 什么 编码 方式 ”的 问题 。 被 
称 为 XML 之 父 的 Tim Bray 曾 说 : “这 难道 不 是 XML 的 最 大 优点 吗 ?” 


7.2.8 没有 字体 


0 0 
未 四 。 


与 某 种 文字 编码 相对 应 的 文字 应 具备 何 种 字形 的 信息 由 计算 机 掌握 ， 根 
据 需 要 ， 必 须 将 字形 在 画面 上 表示 出 来 。 这 样 的 字形 数据 称 为 字体 。 


计算 机 想 要 表示 文字 时 ， 如 果 没 有 对 应 的 字体 信息 ， 束 不 能 表示 。 这 种 
情况 下 会 发 生菜 种 乱码 。 


一 部 分 处 理 系统 对 于 这 种 表示 不 出 来 的 文字 ， 以 空心 方块 来 表示 ， 所 以 
有 时 把 因 字 体 不 存在 而 发 生 的 乱码 称 作 “豆腐 >。 虽说 没有 字体 ， 但 只 有 
一 小 部 分 文字 不 能 表示 ， 这 在 字符 乱码 中 属于 受害 较 轻 的 。 


7.2.9 ”变换 为 内 部 码 时 出 错 

与 文字 编码 方式 错误 的 乱码 类 似 的 ， 还 有 编码 方式 变换 错误 。 

正如 后 面 将 要 介绍 的 ， 以 Java 为 首 的 几 种 语言 使 用 一 定 的 内 部 编码 方 
式 。 程 序 从 外 部 读 入 的 文本 数据 ， 不 管 是 何 种 编码 方式 ，EUC-JP 也 

好 ，Shift_JS 也 好 ，UTF-8 也 好 ， 在 进行 处 理 之 前 ， 都 先 给 它 变 成 所 谓 
的 内 部 编码 方式 (很 多 情况 下 是 UTF-16 等 Unicode 系列 编码 方式 ) 。 


这 个 变换 有 时 会 友 生 判断 失误 。 这 样 的 话 ， 就 会 发 生 与 文字 编码 方式 错 
误 类 似 的 乱码 。 

在 表示 时 发 生 的 编码 方式 错误 ， 仅 仅 是 表示 的 问题 。 但 在 变换 时 及 生 的 
错误 ， 随 着 数据 的 变更 ， 可 能 会 破坏 了 数据 。 这 样 ， 以 后 想 要 通过 更 改 
编码 方式 来 表示 文本 就 难 了 。 


7.2.10 ”发 生 不 完全 变换 






































使 用 “文字 集 ” 或 “字符 编码 方式 ”这 类 词 时 ， 人 们 往往 觉得 JIS (日 本 工 
业 标 准 ) 等 标准 中 会 有 严格 的 定义 。 但 很 多 情况 下 ， 实 际 并 不 是 那样 。 
比如 说 ， 很 多 手机 都 能 使 用 各 种 各 样 的 图 画 文字 【参见 图 7-4 ) 。 这 些 


文字 使 用 了 分 配给 Shift_JIS 的 外 字 《 用 户 可 以 目 己 定义 使 用 的 文字 ) 
领域 中 的 文字 及 字形 。 但 是 ， 如 何 分 配 它们 ， 各 个 电话 公司 都 不 一 样 。 








路 泡 愉 灶 
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让 人 过 
DD. 




















从 手机 送 来 的 文本 数据 ， 大 体 可 以 用 Shif_JIS 来 处 理 。 但 不 同 的 字符 编 
人 码 方式 之 间 进 行 变 换 时 ， 没 办 法 知道 手机 的 外 字 领 域 是 如 何 使 用 的 ， 不 
能 指望 变换 正确 。 











现在 就 是 这 样 一 个 问题 ， 本 来 就 是 用 户 随 便 定义 的 外 字 ， 该 上 怎么 处 理 
呢 ? 如 果 事 先知 道 了 是 哪个 公司 的 手机 送 来 的 数据 ， 辐 哪个 公司 的 手机 
变换 ， 就 可 以 置换 为 类 似 的 文字 4 。 但 现在 ， 包 含 个 人 电脑 在 内 ， 统 一 
的 处 理 还 不 可 能 。 

















42006 年 7 月 ， 日 本 国内 主要 电话 公司 之 间 相 互 图 画 文字 的 变换 服务 开始 了 。 名 称 虽 然 不 一 
样 ，NTT docomo 叫 绘 文字 变换 功能 ，KDDI 和 冲绳 蜂 窒 电话 叫 绘 文字 互 换 服务 ， 沃 达 丰 现在 
的 softbank mobile) 叫 邮 件 绘 文字 自动 变换 功能 ， 但 相互 变换 功能 本 身 几 乎 一 样 。 有 很 多 符 
号 ， 像 心 形 符 ， 在 各 公司 间 符 号 的 形状 和 颜色 几乎 都 能 同等 变换 ， 但 有 些 符号 ， 像 星座 符 ， 会 
变 成 形状 和 颜色 完全 不 一 样 的 东西 ， 有 些 则 变 成 了 号 〈 倒 空 )。 






























































不 只 是 手机 ， 个 人 电脑 也 有 依存 于 机 种 的 文字 (标准 中 没有 规定 ， 只 在 
某 些 特 定 机 种 上 可 以 利用 ) 。 特 别 是 像 Shift_JIS 那 种 已 经 使 用 了 很 长 
i 





问题 不 仅 在 于 机 种 依存 的 文字 。 为 了 能 够 正确 变换 , “原来 的 编码 方式 
中 的 哪 一 个 文字 ， 对 应 于 新 编码 方式 中 的 哪 一 个 文字 ”， 这 个 问题 需要 








坚 不 含糊 地 一 一 确定 。 但 是 ， 个 人 电脑 中 我 们 平常 使 用 的 文字 ， 有 不 少 
就 是 在 模糊 地 使 用 着 。 


本 来 在 ASCII (ISO 646) 中 ， 就 可 以 根据 各 国情 况 的 不 同 进行 不 同 的 
文字 映射 。 所 以 ，JIS X 0201 中 ，ASCII 的 反 斜 杠 \ 所 对 应 的 编码 
(0x5c) 被 分 配给 了 日 元 符号 ?。 波 浪 线 ~ 的 编码 〈0x7e) 则 分 配给 了 上 
划 线 “。 继 承 了 ASCII 的 Shift JIS， 原 封 不 动 地 继承 了 这 些 文 字 。 


正 因 如 此 ， 国 外 以 反 斜 杠 作 为 转 意 字符 ， 而 日 本 国内 用 日 元 符号 作为 转 
意 字 符 这 种 怪事 才 会 发 生 。 


在 作为 AT&T 国际 定义 的 一 部 分 规定 的 EUC-JP 中 ，ASCII 部 分 不 用 
JIS 0201， 而 是 用 原始 的 ASCII 码 。 严 格 来 说 ，EUC-JP 不 应 用 日 元 符 
号 ， 而 应 用 反 斜 杠 。 


分 给 这 些 文字 的 编码 是 共同 的 ， 现 在 只 是 表示 上 的 问题 。 程 序列 表 上 的 
换行 待 ， 不 管 是 n， 还 是 了 n， 一 看 就 能 知道 ， 并 不 是 多 么 重要 的 问 

















即便 以 JIS 标准 为 基础 能 进行 机 械 变 换 的 Shift_ JIS 与 EUC-JP 之 间 没 发 
生 问 题 ， 但 Unicode 要 是 迭 和 进来 的 话 就 不 一 样 了 。 在 将 世界 上 很 多 的 
标准 都 吸收 进来 而 诞生 的 Unicode 中 ，\ 与 ¥，~ 与 ”都 有 。 这 种 时 候 ， 
0x5c 该 变 成 什么 呢 ? 


除了 以 上 两 个 字符 以 外 ，Unicode 与 其 他 文字 集 之 间 ， 不 是 一 对 一 关系 
的 文学 还 有 儿 个 。 含 有 这 种 文字 的 数据 进行 变换 时 ， 会 有 于 失信 息 的 优 


了 给。 
7.2.11 文字 集 的 不 同 


以 Shift JIS 和 EUC-JP 为 基础 的 文字 集 用 相同 字符 编码 方式 进行 变换 
时 ， 除 外 字 以 外 ， 不 会 出 什么 问题 。 但 当 文 字 集 不 同时 ， 会 发 生 在 文字 
集中 找 不 到 应 该 变 成 的 文字 的 情况 。 


加 Unicode 这 种 大 文字 集 变 换 时 ， 除 部 分 模糊 文字 以 外 ， 大 都 可 以 如 实 
进行 变换 。 但 是 从 Unicode 这 种 大 的 文字 集 癌 其 他 文字 集 变 换 时 ， 会 遇 
到 文字 不 存在 的 问题 。 

















“这 种 文字 不 存在 ， 错 误 ! “作为 不 能 表示 的 文字 ， 换 成 一 个 豆腐 块 
(或 倒 空 ) 。 六 种 种 对 策 也 存在 ， 但 不 管 怎么 说 ， 都 是 变换 有 问题 。 

5 从 活字 印刷 时 代 开始 ， 有 这 种 习惯 ， 将 不 能 处 理 的 文字 置换 成 三 ( 倒 空 》， 因 为 将 活字 翻 个 
个 儿 就 印 成 那 种 字形 。 

想 想 也 是 ， 混 杂 着 不 能 表示 的 文字 ， 本 来 是 混杂 了 这 种 文本 数据 的 应 用 
程序 的 问题 ， 却 要 怪 徘 到 变换 程序 头 上 来 ， 真 可 突 。 





















































7.2.12” 字 节 顺 序 错误 


像 UTF-16，UTF-32 这 种 基本 数据 单位 大 于 1 个 字 节 的 编码 方式 ， 存 放 
数据 时 字 节 该 以 什么 顺序 摆 放 ， 有 两 大 流派 ， 一 个 是 big 

endian (BE) ， 一 个 是 little endian (LE) 。 所 以 ， 同 样 是 UTF-16 格 
式 ， 根 据 字 节 顺序 不 同 就 有 两 种 ， 分 别 是 UTF-16BE 和 UTF- 

16LE (UTF-32 也 一 样 ) 。 这 个 搞 钳 了 ， 会 引起 很 及 烦 的 问题 (参见 图 
7-5) 。 





UTEFE-16LE: 8g a Z Z 
字 节 组 合 : 7e 67 2c 67 4c 88 18 5f 
UTF-16BE: 最 俯 稀 稀 
图 7-5” 字 节 顺序 错误 导致 文字 乱码 的 例子 


以 上 从 文字 编码 方式 错误 到 字 市 顺序 错误 ， 介 绍 了 各 种 文字 乱码 。 从 影 
啊 很 大 的 到 微不足道 的 ， 有 各 种 程度 的 乱码 ， 原 因 也 各 不 相同 。 我 们 并 
非 住 在 理想 世界 里 ， 一 时 还 会 为 文字 乱码 而 烦恼 。 


但 硕 望 也 是 有 的 。 世 界 上 很 多 的 文本 数据 都 在 慢 慢 变 成 以 Unicode 来 表 
外。 


长 此 以 往 ，Unicode 广泛 普及 ，Unicode 以 外 的 文字 集 的 文本 数据 都 变 
成 过 去 式 ， 而 且 UTF-8 变 为 主流 (编码 方式 ) ， “至少 日 常生 活 中 ) 
我 们 就 有 望 从 文字 乱码 中 解放 出 来 了 。 

7.2.13 ”从 编程 语言 的 角度 处 理 文 字 


i 
方式 的 。 






































的 方法 ， 从 大 的 方面 分 ， 有 UCS 方式 和 CSI 方 
式 两 种 。 


7.2.14 ”以 变换 为 前 提 的 UCS 方 式 

所 谓 UCS (Universal Character Set， 泛 用 字符 集 ) ， 是 指 程序 中 所 处 理 
的 共同 文字 集 (及 字符 编码 方式 ) 。 输 入 输出 时 ， 编 程 语言 将 文本 数据 
变 成 UCS， 内 部 对 文本 数据 进行 统一 处 理 。UCS 被 各 种 编程 语言 所 利 
用 。 它 具有 以 下 优点 。 

。 原理 简单 ， 容 易 实现 。 

。 除 变 换 外 ， 处 理 成 本 低 。 

。 实际 成 果 多 。 

但 它 也 有 缺点 。 

。 发 生 不 必要 的 变换 。 

。 变换 存在 模糊 部 分 。 

s。 有 外 字 及 机 种 依存 文字 的 问题 。 

。 UCS 中 不 包含 的 文字 绝对 不 能 处 理 。 

内 部 用 UTF-16 时 的 不 必要 变换 ， 可 以 举 出 一 例 : 输入 是 EUC-JP， 输 
出 也 是 EUC-JP 的 情形 。 如 果 按 EUC-JP 处 理 就 不 需要 变换 ， 但 UCS 中 
必须 进行 EUC-JP ,UTF-16 ;EUC-JP 的 变换 。 

7.2.15 ”原封 不 动 处 理 的 CSI 方 式 

所 谓 CSI (Character Set Independent， 字 符 集 独立 ) ， 是 指 不 对 各 种 文 
字 集 (及 编码 方式 ) 进行 任何 变换 ， 原 封 不 动 进行 处 理 。 相 对 于 UCS 
的 内 部 只 有 一 种 编码 方式 的 处 理 方法 ，CSI 中 对 各 种 编码 方式 原封 不 动 
地 处 理 。 

CSI 是 优点 多 ， 自 由 度 高 的 方式 。 

















。 不 发 生 不 必要 的 变换 。 

。 不 发 生变 换 所 带 来 的 问题 。 

。 不易 发 生 外 字 的 问题 (可 以 采取 对 策 不 让 其 发 生 ) 。 

。 理论 上 不 存在 不 能 处 理 的 文字 。 

。 根据 需要 ， 可 以 处 理应 用 程序 独立 的 文字 集 。 
CSI 可 以 处 理 多 种 文字 编码 方式 ， 所 以 是 UCS 的 超 集 。 实 现 CSI 方式 
人 只 要 在 输入 输出 时 追加 字符 编码 方式 变换 的 编码 ， 就 成 为 UCS 方 
但 与 UCS 相 比 ，CSI 有 以 下 缺点 。 

。 字符 串 的 处 理 容易 变 得 复杂 化 。 

。 预计 处 理性 能 会 变 低 。 

。 实际 成 果 少 。 


实际 上 ， 现 在 存在 的 多 种 编程 语言 中 ， 采 用 CSI 方 式 的 几乎 没有 。Ruby 
从 1.9 版 开始 提供 CSI 方式 的 字符 串 处 理 功 能 ， 成 为 少 有 的 例外 。 











7.2.16 ”使 用 UTF-16 的 Java 





Java 采用 UCS 方式 ， 内 部 的 字符 编码 方式 选用 UTF-16。 

对 Java 而 言 不 扯 的 是 ，UTF-16 本 丑 的 面貌 已 经 从 当初 发 生 了 变化 。 当 
Java 人 确立 字符 串 处 理 的 基本 部 分 的 时 候 ，Unicode 还 是 Ver 1.0， 只 存在 
现在 被 称 为 BMP 的 部 分 。 


Java 语言 有 反映 这 一 状况 。Java 的 字符 型 (char ) 是 16 位 整数 ， 字 符 串 
在 内 部 以 16 位 整数 的 数组 来 表示 。 结 果 ， 束 产生 了 以 下 问题 。 


。 不 属于 BMP 的 文字 (Java 中 称 为 辅助 文字 ) 以 两 个 字符 来 表示 。 
。 求 字符 串 长 度 时 ， 调 用 含有 一 个 辅助 文字 的 String 的 length 方 








法 ， 不 是 返回 1， 而 是 返回 2。 


。 像 求 字符 串 长 度 这 种 基本 的 字符 串 操 作 ， 也 不 能 使 用 String 类 本 
身 基 于 char 的 方法 ， 而 需要 使 用 基于 代码 点 (CodePoint，Java 中 
对 文字 编码 的 叫 法 ) 的 新 方法 。 


综 上 所 述 ， 如 果 想 要 正确 处 理 辅助 文字 ， 不 要 使 用 旧版 Java 提供 的 
API， 必 须 使 用 Java5.0 以 后 版 本 提供 的 API (参见 图 7-6) 。 但 是 ， 现 
在 登录 进 Unicode 的 文字 一 次 又 一 次 增加 ， 只 能 处 理 BMP 文字 的 程序 
已 经 不 允许 了 。 


// 求 字符 串 长 度 
void lengthTest(String s) { 
// 基 于 char 求 字符 串 长 度 
System.out .printf("char len = %d\n", s.length()); 
// 基 于 codepoint 求 字 符 串 长 度 
System.out .printf("codepoint len = %d\n", 
s.codePointCount(86，s.length() ) ); 








} 


// 按 文字 循环 
void iterTest(String s) { 
// 基 于 char 对 字符 串 循环 
for (int charIndex = 6; charIndex < s.length(); charIndex++){ 





int c = s.charAt(charIndex); 
System.out.printf("%x\n", c); 

} 

// 基于 codepoint 对 字符 串 循 环 

for (int codeIndex = 6;j codeIndex < s.length(); ){ 
int C = s.codePointAt(codeIndex); 
System.out.printf("%x\n", c); 
codeIndex += Character.charCount(c); 


} 








} 














图 7-6 BMP 与 辅助 文字 的 处 理 代码 不 相同 的 Java 
制定 Java 时 ，Unicode 仅 限 于 16 位 。Java 没 选择 可 变 长 的 UTF-8， 而 
选择 了 UTF-16， 因 而 产生 了 这 样 的 悲剧 。 说 是 时 机 的 和 恶作剧 也 轩 ， 真 
是 太 可 惜 了 。 


虽说 这 样 ， 看 看 图 7-6 的 程序 ， 基 于 char 的 程序 和 基于 CodePoint 的 








API， 也 没 那 么 复杂 的 差异 。Java 的 字符 串 处 理 的 抽象 化 程度 本 来 就 不 
高 ， 字 符 串 处 理 本 来 就 很 复杂 ， 所 以 API 的 影响 也 就 很 不 明显 。 与 擅长 
字符 处 理 、 各 种 文字 处 理 都 能 以 简洁 的 方式 表现 的 Ruby 那样 的 语言 相 
比 ，Java 的 文字 处 理 怎 么 都 显得 元 长 。 所 以 ， 现 在 因 采 用 UTF-16 而 使 
复杂 上 度 变 得 不 那么 明显 ， 不 知 对 Java 是 好 还 是 坏 。 





7.2.17 使 用 UTF-8 的 Perl 


Perl 也 使 用 UCS 方式 ， 内 部 编码 方式 采用 UTF-8。 开 始 驶 采用 可 变 长 
的 UTF-8 的 Perl， 没 有 Java 中 由 UTF-16 所 引起 的 问题 。 而 且 ， 与 Java 
不 同 ， 字 符 串 不 是 数组 《几乎 不 具有 数组 的 性 质 ) 这 一 点 ， 也 成 为 不 必 
在 意 字 符 编 码 方 式 的 理由 之 一 。 


Perl 的 字符 串 中 有 “utf8 标志 ”。 设 定 了 标志 的 字符 串 ， 是 以 UTF-8 编码 
的 Unicode 文本 ; 没 设 定 标 志 的 字符 串 ， 以 字 节 串 来 处 理 。Perl 原来 也 
将 文本 数据 及 二 进 制 数据 同样 用 字符 串 处 理 ， 虽 说 是 反映 了 历史 情况 ， 
结果 是 API 变 得 容易 使 用 了 。 


只 要 读 入 的 字符 串 没 有 明确 指定 ， 都 被 看 做 是 utf8 标志 没 设 定 。 为 了 给 
文件 的 输入 设 定 utf8 标志 ， 要 么 用 use open 语句 对 所 有 文件 都 设 定 ， 
要 么 对 每 个 文件 在 open() 时 设 定 ， 要 么 以 二 进 制 读 进来 之 后 再 设 定 ， 
哪 种 方法 都 可 以 (参见 图 7-7) 。 


# 对 文件 全 体 指定 

use open IN => ':euc-jp'; # 输入 用 EUC-JP 

use open OUT => ':utf8'; # 输出 用 UTF-8 

use open ':encoding (iso-8859-7)'; # 全 部 输入 输出 用 iso-8859-7 
































# 对 每 个 文件 进行 指定 
open(I1, "<:utf8", "file"); # 输入 用 UTF-8 
open(I2, "<file"); # open 





binmode(I2, ":utf"); # 以 后 指定 


# 以 字符 串 为 单位 变换 

Use Encode; 

$string = Encode: :decode("euc-jp", $data); 
# $data 是 二 进 制 ，$string 是 UTF-8 文本 












































图 7-7 Perl 中 指定 字符 编码 方式 的 3 种 方法 














Perl 中 ， 全 部 的 字符 串 处 理 和 正则 表达 陈 都 是 以 utf8 标志 为 前 提 而 工作 
的 ， 只 要 控制 好 输入 输出 ， 以 UTF-8 为 基础 进行 的 文本 处 理 就 不 会 发 
生 任何 问题 。 


至 于 UCS 所 特有 的 由 文字 变化 带 来 的 问题 ，Perl 是 给 Encode 模块 追加 
一 个 变换 表 来 解决 的 。 要 说 Encode 模块 是 文字 编码 处 理 的 中 心 也 不 过 
分 。 维 护 这 个 模块 的 是 日 本 最 有 名 的 开源 代码 程序 员 小 饲 弹 。 有 一 种 说 
法 是 ， 在 Perl 的 源 编码 发 布 物 中 ， 有 一 半 以 上 都 是 这 个 Encode 模块 变 
换 表 ， 真 是 很 了 不 起 。 














7.2.18 ”用 UTF-16 的 Python 


世界 上 很 有 名 的 Python， 在 日 本 的 知名 度 从 现在 才 开 始 增加 。 简 单 总 结 
SR 


Python 也 采用 UCS 方式 ， 字 符 编 码 方式 采用 UTF-16 。 与 按 utf8 标志 
的 有 无 来 区 别 字 符 串 的 Perl 不 同 ，Python 中 表示 二 进 制 数据 的 字 节 串 的 
类 str 与 表示 Unicode 字符 串 的 类 unicode 被 明确 区 别 开 来 。 


6 Python 在 编译 时 ， 根 据 选项 可 以 将 内 部 编码 方式 选 为 UTF-32。 实 际 上 ， 类 似 Fedora 和 
Ubuntu 的 Linux 中 ，Python 指定 UTF-32 为 内 部 编码 方式 进行 编译 。 


二 进 制 是 str， 文 本 是 unicode， 听 起 来 有 点 怪 怪 的 。 但 Python 3.0 中 ， 
二 进 制 是 bytes， 文 本 是 str (Unicode 字符 串 ) 。 但 如 果 指 定 用 UTF-16 
编译 的 话 ， 代 理 对 依然 被 算 成 两 个 文字 。 





















































7.2.19 ”采用 CSI 方 式 的 Ruby 1.8 


J 从 以 前 开始 ， 因 为 可 以 不 经 变换 直接 人 处理 文本 数据 而 采用 了 CSI 
ls 


但 是 1.8 版 以 前 的 Ruby， 有 一 个 非常 大 的 限制 。 能 够 处 理 的 文字 编码 方 
式 只 有 EUC-JP、Shift JIS 和 UTF-8 三 种 。 考 虑 到 世界 上 有 那么 多 的 文 
字 集 ， 不 可 否认 这 会 给 人 偷工减料 的 印象 。 不 过 Unicode (UTF-8) 用 

盖 了 很 广 的 范围 ， 在 实用 上 可 以 说 没有 问题 。 


Ruby 1.8 以 前 的 文本 处 理 中 ， 每 一 个 字符 种 对 象 不 带 字 符 编 码 方式 的 信 
恩 。Ruby 1.8 中 正则 表达 式 带 有 编码 方式 信息 ， 以 文字 为 单位 处 理 时 用 








正则 表达 式 。 字 符 串 对 象 说 到 底 还 是 按 字 节 串 操 作 (参见 图 7-8) 。 


# 全 部 的 文本 处 理 都 按 EUC-JP 为 基础 
$KCODE='e' 

# 全 部 的 文本 处 理 都 按 UTF-8 为 基础 
$KCODE='U 






























































#UTF-8 对 应 的 正则 表达 式 (用 u 选项 指定 ) 








re = /foo 汉字 WW 了 baryu 
# 以 文字 为 单位 分 割 string 
chars = "abc 为 WW 汉字".split(//u) 

















图 7-8 Ruby 1.8 的 文本 处理 


通过 在 正则 表达 式 的 后 面 添加 选项 ， 可 以 指定 对 应 的 编码 方式 (参见 表 
7-8) 。 


表 7-8 ”Ruby 1.8 中 正则 表达 式 的 字符 编码 方式 选项 








ecm | 
EL 





给 全 局 变量 $8KCODE 设 定 适 当 的 值 ， 可 以 给 不 带 选 项 的 正则 表达 式 指 定 
编码 方式 。 


Ruby 的 字符 编码 方式 的 对 应 与 其 他 的 语言 很 不 相同 。 
。 不 采用 UCS 方式 。 

。 字符 串 里 不 附加 字符 编码 方式 的 信息 。 

。 字符 串 对 象 一 直 作为 字 节 串 而 操作 。 


乍 一 看 ， 和 觉得 好 像 功 能 不 够 ， 实 际 用 起 来 ， 拓 然 还 挺 好 。 之 所 以 这 样 风 
气 一 变 ， 诞 生 了 与 其 他 语言 不 同 的 字符 串 处 理 方式 ， 也 许 是 因为 这 门 语 





言 生 在 长 年 受 多 字 节 字符 串 处 理 之 百 的 日 本 。 
当然 Ruby 1.8 的 字符 串 处 理 方式 也 不 是 没有 缺点 。 它 存在 以 下 几 个 问 


题 。 


。 除了 事先 答 入 的 3 种 字符 编码 方式 以 外 ， 不 能 处 理 其 他 字符 编码 
最 大 的 弱点 ) 。 

。 想 以 文字 为 单位 进行 字符 串 处 理 时 ， 不 经 过 正则 表达 式 就 不 能 直接 
处 理 。 


。 在 别 的 语言 中 能 够 做 到 的 由 名 称 及 代码 点 〈code point ) 进行 的 
文字 指定 ，Ruby 中 不 行 〈 参 见 图 7-9) 。 











名 称 指定 aa 
"\x{LATIN CAPITAL LETTER A}\x{GREEK SMALL LETTER ALPHA}" 




















代码 点 指定 aa 弹 
"\x{61}\x{3b1}\x{S5F3E}" 




















图 7-9 由 名 称 及 代码 点 指定 的 例子 


针对 这 些 问题 ，2007 年 12 月 公布 的 Ruby1.9 改善 了 字符 编码 方式 的 处 
理 。 


7.2.20 ”强化 了 功能 的 Ruby 1.9 


从 Ruby 1.9 开始 ， 在 沿用 1.8 版 及 以 前 的 CSI 方式 的 基础 上 ， 又 进行 了 
儿 项 功能 强化 ， 其 基本 方针 列举 如 下 。 


。 作为 正则 表达 式 引 擎 ， 将 1.8 版 及 以 前 的 来 自 Emacs 的 正则 表达 式 
引擎 更 换 为 称 作 “购车 ”的 引擎 。 


。 让 个 别 字 符 串 也 能 够 附加 编码 方式 信息 。 
。 根据 附加 信息 的 指令 ， 可 以 按 字 符 单 位 进行 处 理 。 
也 能 够 奶 加 用 户 定 义 的 编码 方式 。 
。 根据 编码 指示 (coding pragma) ， 可 以 指定 编码 方式 。 




















e。 骨 入 编码 方式 变换 方法 。 
用 Ruby 1.9 的 功能 编 的 程序 大 意 示 于 图 7-10。 


# -*- coding: utf-8 -*- 
# 文件 开头 的 注释 ， 指 定 本 文件 是 UTF-8 

















# 指定 从 文件 中 读 入 UTF-8 
open(path, "r:utf-8") do |f| 
f.eachline do |linel| 





printf "f=%s\n"，line.encoding # 显示 "f=utf-8" 
print line.encode("sjis") # 变换 为 Shift_JIS 显示 
end 
end 








图 7-10 Ruby 1.9 文 持 编码 方式 的 例子 





7.2.21 是 UCS 还 是 CSI 


Java、Perl 和 Python 等 采用 的 UCS 方式 ， 从 外 部 读 入 数据 变换 为 
Unicode 后 进行 处 理 。 这 种 方式 可 以 对 包含 于 Unicode 的 文字 进行 统一 
处 理 ， 程 序 结构 变 得 简单 。Unicode 被 设计 成 世界 上 使 用 的 很 多 文字 集 
的 上 位 集合 ， 几 乎 在 所 有 情况 下 都 能 做 得 很 顺利 。 


另 一 方面 ，Ruby 所 采用 的 CSI 方 式 ， 文 本 数据 尽 可 能 不 做 变换 地 进行 
处 理 。 正 如 文字 乱码 那 一 节 说 明 的 那样 ， 由 于 历史 上 的 原因 ， 在 文字 集 
之 间 进 行 变换 时 ， 会 出 现 各 种 各 样 的 问题 。Ruby 1.8 中 ， 只 能 处 理 
EUC-JP、Shift JIS 和 UTF-8 三 种 编码 方式 。 但 Ruby 1.9 提供 了 更 加 彻 
底 的 CSI 方式 的 字符 串 处 理 功能 。 

作为 CSI 方式 的 副作用 ， 用 户 独自 的 字符 编码 方式 的 处 理 也 可 以 定义 
了 。 所 以 ， 在 不 久 的 将 来 ， 像 TRON 人 码 及 今昔 文字 镜 那 种 比 Unicode 更 
大 的 文字 集 ，Ruby 说 不 定 也 能 够 处 理 。 


* * * 











编程 处 理 文 字 的 时 候 ， 残 留 铸 各 种 各 样 的 历史 事件 和 复杂 的 问题 。 文 本 
不 能 正确 显示 的 文字 乱码 就 是 其 典型 例子 。 为 了 不 引起 文字 乱码 ， 需 要 
对 文字 集 和 文字 编码 方式 有 一 个 正确 的 理解 。 








Unicode 


很 久 以 前 ， 在 计算 机 能 够 处 理 的 文字 只 有 字母 和 几 个 符号 的 时 代 ， 世 
界 兽 是 和 平 的 。 但 文字 就 是 文化 。 世 界 上 的 人 类 日 常生 活 中 所 使 用 的 
和 
慢 了 扣 儿 。 


于 是 ， 各 个 国家 制定 了 表示 本 国文 字 的 标准 ， 各 国 的 文字 也 都 能 表示 
了 。 但 这 样 一 来 ， 各 个 国家 都 制定 了 不 同 的 标准 ， 搞 得 软件 在 每 个 国 
家 都 得 修改 ， 国 际 软件 开发 成 本 有 些 没 谱 。 


为 了 解决 这 个 问题 ， 就 诞生 了 Unicode， 但 Unicode 的 诞生 经 历 了 太 
多 困难 。 我 认为 主要 有 3 个 原因 。 


首先 是 政治 的 原因 。 当 时 ， 与 制定 文字 集 牵 连 很 深 的 计算 机 《硬件 ) 
厂商 ， 说 实在 话 对 新 的 文字 集 并 不 抱 很 大 希望 ， 所 以 ， 他 们 对 
Unicode 基本 上 表现 都 很 消极 。 另 一 方面 ， 软 件 广 商 为 了 降低 软件 国 
际 化 的 成 本 ， 无 论 如 何 都 需要 一 个 能 用 的 文字 集 。 标 准 的 确定 怎么 说 
都 会 带 来 利害 冲突 和 政治 问题 。Unicode 虽然 还 有 各 种 问题 ， 但 终究 
成 为 能 用 的 文字 集 ， 不 愧 是 个 奇迹 。 真 是 太 好 了 。 


其 次 是 文化 的 原因 。 文 字 是 文化 的 有 反映， 每 个 人 都 有 各 目的 喜好 。 比 
如 说 ， 高 桥 这 个 名 字 中 使 用 的 高 字 ， 有 的 是 “点 横 头 ”( 二 ) 下 边 
为 “ 口 ? 字 的 “ 口 高 >， 有 的 是 下 边 像 个 梯子 的 “梯子 高 ”。 


不 在 意 的 人 看 起 来 ， 只 是 觉得 字体 不 同 。 但 在 意 的 人 看 来 ， 好 像 是 完 
全 不 同 的 文字 。 仅 JIS 定义 的 文字 集中 ， 就 有 像 富 ?及 “ 军 ” 这 种 区 别 
很 小 的 字 。 这 种 状况 下 ， 作 出 让 所 有 国家 的 所 有 人 都 满意 的 决定 是 不 

可 能 的 。 对 于 Unicode 的 决定 即便 是 那些 心怀 不 消 的 人 ， 也 认为 它 大 
是 妥当 的 。 


最 后 是 技术 的 原因 。 当 初 ，Unicode 假定 世界 上 所 有 的 文字 都 能 囊括 
在 16 位 以 内 ， 也 就 是 65536 个 文字 的 范围 内 。 对 于 日 常生 活 中 只 用 
127 个 文字 的 ASCII 码 就 能 满足 的 美国 人 来 说 ， 认 为 超越 6 万 字 的 巨 
大 空间 已 经 足够 了 ， 某 种 意义 上 也 是 没 办 法 的 事 。 但 是 事实 上 ， 不 要 
说 6 万 字 ，Unicode 5.0 已 经 收录 了 9 万 多 字 ， 而 且 还 没完 没 了 。 从 这 
一 点 可 以 得 到 教训 , “肯定 没 问题 > 这 种 迷信 是 很 危险 的 。 












































作为 日 本 的 程序 员 ， 长 期 进行 与 文字 编码 相关 的 工作 ， 得 到 的 经 验 惑 
征文 字 编 码 是 棘手 的 问题 。 真 心 期 符 这 些 麻 烦 的 问题 会 因 Unicode 而 
J 问题 是 随 着 新 文字 集 的 出 现 ， 短 期 性 的 混乱 还 会 越 来 越 历 











第 8 章 正则 表达 式 


8.1 ”正则 表达 式 基 础 


正则 表达 式 是 处 理 字符 捉 时 所 用 的 记述 方法 ， 在 “从 日 志文 件 中 提取 像 
日 期 的 东西 ?以 及 “从 文章 中 找 出 似乎 是 拼写 错误 的 东西 ?等 情况 下 很 有 
用 。 本 节 介 绍 正则 表达 式 及 其 基本 使 用 方法 。 


8.1.1 检索 “ 像 那样 的 东西 ” 


在 处 理 字符 串 的 时 候 ，“ 包 含 'Ruby' 的 字符 串 * 这 种 表达 是 比较 简单 的 。 
但 有 些 情况 下 ， 想 用 更 模糊 一 点 的 规则 来 记述 字符 串 的 处 理 ， 比 如 < 含 
有 以 P 开始 ， 以 1 结尾 的 单词 "等 。 但 计算 机 不 懂 人 的 语言 ， 所 以 必须 
用 计算 机 懂 的 语言 来 表达 这 种 指示 。 这 种 记述 规则 就 是 正则 表达 式 。 在 
Ruby 里 ， 以 侧 杠 〈/》 包 起 来 的 部 分 标 为 正则 表 过 式 ， 比 如 下 面 这 各 使 
用 方法 ， 











/Ruby/”# 字符 串 "Ruby" 
/P.*1/ # 以 P 开始 ， 以 1 结尾 





正则 表达 式 是 描述 字符 串 模 式 的 一 种 微型 语言 ， 可 以 将 其 看 做 是 租 入 到 
Ruby 中 的 其 他 语言 。 因 为 它 是 个 独立 的 语言 ， 与 宿主 语言 (Ruby) 有 
着 完全 不 同 的 语法 ， 所 以 有 时 会 成 为 混乱 的 根源 。 但 奉 能 好 好 掌握 其 语 
法 ， 则 没有 什么 比 它 更 方便 的 了 。 


在 UNIX 系列 操作 系统 上 ， 很 多 语言 和 工具 都 能 使 用 正则 表达 式 。 
Ruby、Perl、AWK、sed、ed、vi、Emacs 以 及 less 等 都 能 用 。 正 则 表达 
式 的 语法 本 质 上 都 一 样 ， 但 各 个 工具 都 独立 地 实现 了 正则 表达 式 ， 语 法 
上 多 少 有 些 差 异 。 这 里 讲解 Ruby 里 使 用 的 正则 表达 式 。 


用 正则 表达 陈 的 模式 匹配 能 做 些 什 么 呢 ? 这 里 介绍 其 一 部 分 功能 。 比 
如 ， 如 果 使 用 模式 匹配 功能 ， 以 下 的 工作 会 变 得 很 容易 。 








。 从 日 志文 件 中 取出 像 日 期 的 东西 。 
。 从 HTML 文件 中 取出 像 URL 的 东西 。 
。 典型 的 拼写 错误 检索 。 


“ 像 那样 的 东西 ”这 种 表达 ， 用 模式 匹配 以 外 的 方法 很 困难 。 而 这 就 是 模 
式 匹 配 的 合 手 好 戏 。 


8.1.2 ”正则 表达 式 的 语法 


正则 表达 陈 由 称 为 元 《meta) 字符 的 特殊 功能 字符 和 其 他 字符 组 成 。 元 
字符 有 点 像 编 程 语言 中 的 控制 结构 。 正 则 表达 式 中 的 元 字符 见 表 8-1。 


表 8-1 正则 表达 式 的 元 字符 
元 字 和 符合 义 


et 
王 何 一 个 相 匹 配 

















\w “| 构成 单词 的 字符 
ss 构成 单词 的 字符 以 外 


wa 


OE 
| 
| 











CE ax | 
aa 


重复 0 次 以 上 (懒惰 匹配 ) 








2 @ 和 





Ci EE 
\z | 字符 串 尾 〈 若 全 换行 ， 匹 配 前 一 字符 














CE 


除 元 字符 以 外 的 字符 与 处 理 对 象 的 字符 本 身 相 一 致 。 比 如 ，/FOO/ 与 
FOO 的 字符 排列 相 一 致 。 前 面 讲 述 的 卫 .*]/ 解 释 如 下 。 


。P 是 普通 字符 ， 与 字母 P 本 身 相 匹配 。 

se。“.” 与 任意 字符 相 匹 配 。 

e。“*#” 表 示 前 面 的 模式 “.” 重 复 任 意 次 。 

。 1] 与 字母 1 本 身 相 匹配 。 
用 人 类 语言 表述 以 上 内 容 ， 就 是 “以 P 开始 ， 以 1 结尾 ”的 字符 串 。 也 就 
是 说 ，Perl 及 Pascal 都 能 与 之 匹配 。“.*” 也 包含 0 次 ， 所 以 Pl 也 能 与 之 
匹配 。0 次 很 容易 被 忘记 ， 震 要 特别 注意 。 
下 面 详细 讲述 正则 表达 式 的 语法 。 

普通 字符 


字符 


除 表 8-1 中 所 示 的 元 字符 以 外 的 普通 字符 ， 痢 与 该 字符 自身 相 匹 配 。 也 
就 是 说 ，a 与 a 目 身 相 匹 配 。 不 含 元 字符 的 字符 串 的 模式 就 是 该 字符 串 








本 身 。 比 如 与 Ruby 相 匹 配 的 模式 就 是 Ruby。 
字符 集合 


用 括号 〈[]) 括 起 来 的 部 分 为 字符 集合 。 与 括号 内 所 含 的 每 一 个 字符 都 
匹配 。 比 如 ，[abcdef] 能 与 小 写字 母 abcdef 中 的 任何 一 个 相 匹 配 。 


字符 集合 中 ， 用 中 划 线 〈-) 来 指定 范围 。 所 以 ，[abcdef] 可 以 用 [a- 
f] 来 代 蔡 。 


字符 集合 中 ， 第 一 个 字符 是 [和 J 时， 表示 取 反 。 束 是 说 ， 不 与 括号 〈[]) 
中 的 字符 相 匹 配 。 


字符 集合 中 ， 想 指定 ^、-、] 时 ， 如 果 开 头 不 是 ^， 则 将 -或 ] 放 在 开头 。 
另外 ， 这 些 字符 的 前 面 如 果 放 一 个 反 斜 枉 (\) 进行 转 义 ， 束 会 作为 普 
通 字符 来 处 理 。 
全 局 一 人 于 从 


表示 任意 一 个 字符 的 模式 是 “.”。 但 是 ,，“.” 不 能 匹配 换行 符 〈 除 了 后 面 
讲述 的 指定 m 选项 的 情况 ) 。 


比如 说 ， 以 P 开始 ， 任 意 2 个 字符 之 后 跟 1 的 模式 就 是 P..1。"“.” 常 常 与 
下 面 要 讲述 的 “重复 ”一 起 使 用 。 

重复 

模式 的 语法 中 也 应 有 控制 结构 。 正 则 表达 式 的 控制 结构 是 重复 。 根 据 上 
限 与 下 限 的 不 同 ， 正 则 表达 式 的 重复 有 多 种 写法 〈 人 参见 表 8-2) 。 每 种 
都 是 对 前 面 的 模式 进行 重复 。 

表 8-2 重复 的 写法 























比如 说 ，a* 是 指 a 重 复 0 次 以 上 ，a+ 是 指 a 重 复 1 次 以 上 。a? 是 指 a 
重复 0 次 或 1 次 ， 意思 就 是 d 


信 禁 与 懒惰 


正则 表达 式 中 ， 有 从 最 左边 开始 选择 最 长 四 配 的 最 左 最 长 原则 。 但 有 些 
情况 下 ， 这 很 让 人 为 难 。 


比如 ， 为 了 提取 字符 串 http://www.ruby-lang.org:80/ja /开头 的 http:， 
用 .#: 去 匹配 ， 结 果 却 匹配 到 了 http://www.ruby-lang.org :。 


原因 就 在 于 正则 表达 式 中 重复 结构 的 贫 榴 〈greedy) ， 一 定 要 找到 与 模 
式 相 一 致 的 最 长 的 字符 串 。 在 正则 表达 陈 的 贫 柳 匹配 过 程 中 ， 即 使 遇 到 
冒号 也 不 会 停止 扫描 ， 而 是 试图 找到 相 匹配 的 最 长 字符 串 。 


也 就 是 说 ， 继 续 检 索 冒 号， 一 直到 字符 串 的 最 后 ， 友 现 “ 啊 ， 没 有 了 ”再 
折 回 。 所 以 ， 上 面 的 就 匹配 到 了 最 后 一 个 冒号 。 这 种 折 回 称 为 回溯 
(backtrack) 。 


如 果 后 面 跟 一 个 重复 系列 的 元 字符 9?， 束 不 再 贫 禁 ， 而 是 进行 懒惰 
Cnon-greedy) 匹配 。 懒 惰 匹 配 时 ， 第 一 次 与 模式 匹配 时 束 停 止 检索 。 
上 面 的 字符 串 用 模式 .*:? 匹 配 时 ， 就 能 得 到 http:。 


分 组 
重复 是 以 近 前 的 正则 表达 式 为 对 象 的 ，mat+ 是 指 m 与 跟随 其 后 的 1 个 以 


上 的 a。 如 果 想 要 表达 ma 重复 1 次 以 上 ， 就 要 用 括号 括 起 来 ， 变 成 
(ma)+。 这 种 将 模式 绑 定 起 来 的 功能 称 为 分 组 。 


与 正则 表达 却 中 用 括号 括 起 来 的 模式 相 匹 配 的 字符 串 ， 可 以 用 \1 等 来 表 
示 。 也 惑 是 说 ，《〈.) \1 是 指 连续 两 个 相同 字符 。 在 后 面 使 用 匹配 的 字 
符 串 称 为 癌 后 引用 。 


使 用 括号 进行 同 后 引用 的 时 候 ， 因 为 要 在 内 部 保存 数据 ， 程 序 效 率 多 少 
有 点 降低 。 如 果 仅 仅 是 为 了 分 组 ， 不 需要 进行 回 后 引用 的 时 候 ， 就 可 以 





























使 用 没有 向 后 引用 的 模式 括号 (?: 和 ) 。 
选择 


从 多 个 模式 中 选 出 一 种 的 元 字符 是 |， 比 如 yes |no 。 | 与 其 他 正则 表达 式 
的 构成 要 素 相 比 ， 优 先 级 要 低 ，yes |no 可 解释 成 “yes” 或 者 “no”， 而 不 
会 解释 成 “ye” 后 跟着 “s” 或 者 “n”， 然 后 跟着 “ o ”。 那 种 模式 可 以 使 用 分 
组 来 表达 ， 写 成 ye(s|n)o。 


锚 点 
目前 为 止 介绍 的 模式 都 是 以 字符 的 排列 进行 匹配 的 ， 正 则 表达 式 中 ， 还 


有 只 用 指定 位 置 而 不 是 字符 来 进行 匹配 的 模式 。 这 称 为 锚 点 
Canchor) 。 锚 点 示意 于 表 8-3 中 。 


表 8-3 锚 点 的 例子 
于 
行 尾 〈 若 含 换行 ， 则 是 其 前 面 字符 ) 


WR 


\z “| 字符 串 尾 若 含 换行 ， 匹 配 前 一 字符 ) 


























ee er 
\b 词 头 或 词尾 〈[] 外 ) 
用 模式 指定 位 置 


用 否定 模式 指定 位 置 











作为 练习 ， 下 面 来 解读 以 下 正则 表达 式 的 意思 吧 。 

正则 表达 式 1 : /F00/ 

这 是 指 FOO， 也 就 是 E、O、0 三 个 字符 排列 起 来 的 意思 。 
正则 表达 式 2 : /[A-Z][a-zA-Z1-9]*#/ 


以 大 写 英文 字母 开始 ， 紧 接着 是 英文 字母 或 数字 ， 这 是 Ruby 季 数 的 模 
式 。 





正则 表达 式 3 : /(Ruby)+/ 


Ruby 重复 一 次 以 上 ， 能 匹配 Ruby、RubyRuby、RubyRubyRuby...... 等 


字符 串 。 

正则 表达 式 4 : /Dec,?/ 

Dec 之 后 的 “,” 重 复 0 次 或 1 次 ， 也 就 是 与 Dec 或 Dec 相 匹配 。 

正则 表达 式 5: /Sun|Mon|Tue|wed|Thu|FrilSat/ 

与 用 英文 表示 的 一 周 7 天 匹配 。 选 择 〈|) 的 结合 强度 弱 ， 匹 配 的 对 象 不 
是 近 前 的 字符 ， 而 是 字符 串 。 

8.1.3 3 个 陷 际 


不 仅 是 在 Ruby 中 ， 在 Perl 及 AWK 中 也 是 一 样 ， 经 常 有 人 说 正则 表达 
式 很 难 懂 。 这 是 有 理由 的 。 除 了 已经 讲 过 的 它 是 语言 中 的 微型 语言 之 
外 ， 还 有 以 下 的 理由 。 


记 写 多 、 密 度 高 的 表达 式 


正则 表达 式 用 记号 来 表达 模式 ， 看 上 去 似 有 很 多 记号 。 像 Perl 一 样 ， 字 
符 挤 得 密 密 的 ， 看 起 来 像 * 噪 声 ” 一 样 。 而 且 ， 所 有 的 字符 都 有 含义 ， 没 
有 提供 一 种 可 以 写成 易 读 表达 式 的 选项 。 为 应 对 这 一 问题 ， 出 现 了 扩展 
正则 表达 式 〈 后 面 会 讲 到 ) 。 


0 次 以 上 的 重复 


写 正则 表达 式 时 最 容易 在 这 儿 卡 元 。 有 人 学 了 正则 表达 式 很 长 时 间 ， 也 
写 了 很 多 正则 表达 式 ， 到 这 儿 还 是 容易 出 错 。 


比如 说 ， 表 达 “a 重复 0 次 以 上 ， 后 面 跟着 bb” 这 个 模式 的 a*bb 与 
ccbbaabb 进行 匹配 ， 会 匹配 上 哪 一 部 分 昵 ? 是 aabb 吗 ? 但 答案 是 前 面 
的 bb。 


0 个 a， 后 面 跟 着 bb， 就 变 成 了 简单 的 bb。 正 则 表达 式 匹 配 字 符 串 时 ， 
从 左 侧 开 始 扫描 ， 第 一 次 匹配 上 时 就 停止 了 ， 后 边 即 使 有 更 适当 的 ， 也 
































不 会 再 往 后 检索 了 。 如 果 要 保证 有 1 个 以 上 的 a， 可 以 写成 atbb， 但 也 
不 是 每 次 都 能 保证 有 1 个 以 上 的 a 

焦 禁 型 匹配 

另 一 个 容易 卡 住 的 地 方 是 前 面 讲述 的 ， 正 则 表达 式 的 扫描 是 贫 林 的 。 我 
们 已 经 说 过 ， 这 可 以 用 懒惰 型 匹配 来 解决 。 还 有 一 种 指定 方法 ， 将 模式 
写成 [^:]*: 的 样子 ， 意 指 * 冒 号 以 外 的 字符 重复 0 次 以 上 ， 之 后 跟着 
EE 











8.1.4 ”正则 表达 式 对 象 


面向 对 象 语言 Ruby 中 ， 所 有 数据 都 是 对 象 。 也 就 是 说 ， 正 则 表达 式 也 
是 对 象 。Ruby 程序 中 正则 表达 式 对 象 写 成 /.*/ 的 样子 。 


如 果 想 写 文件 路 径 那 种 含有 很 多 斜 枉 〈/) 的 模式 时 ， 每 次 都 写 
成 /\/usr(\/local)?\Vbin/ ， 这 样 用 了 很 多 表示 转 义 的 反 斜 杠 
(C) ， 就 会 搞 得 很 复杂 。 


在 灵活 性 方面 很 拿手 的 Ruby， 为 这 种 情况 准备 了 

像 %r1/usr(/local)?/bin! 中 的 %r! 这 种 正则 表达 式 。! 可 以 是 任意 字 
符 ， 应 该 成 对 出 现 。 如 果 用 括号 ， 上 式 就 变 成 

了 %r{fV/usr(/Local)?/binl 。 


正则 表达 式 对 象 可 以 用 正则 表达 式 类 的 类 方法 生成 。 程 序 中 由 组 合 字 符 


串 生成 正则 表达 式 时 ， 使 用 类 方法 更 自然 。 比 如 ，Regexp.compile 接 
受 字 符 串 作为 参数 ， 生 成 相对 应 的 正则 表达 式 对 象 。 


Regexp.compile("RE") 


类 方法 参数 带 过 来 的 字符 串 中 ， 如 果 出 现 与 元 字符 相同 的 字符 ， 夺 不想 
让 其 表 以 特别 的 意义 ， 可 以 对 元 字符 进行 转 义 ， 使 其 失去 特别 的 意义 。 


比如 ， 调 用 Regexp.escape ， 为 了 消除 其 参数 带 过 来 的 字符 串 中 字符 
含有 的 元 字符 意义 ， 该 函数 就 会 返回 在 字符 串 中 加 入 了 反 和 斜 杠 的 字符 
串 。 基 于 这 个 字符 串 做 正则 表达 式 ， 就 能 做 出 匹配 P.*l 本 身 的 正则 表达 

















Regexp.escape("P.*") 


#=> "P\\.\\*" 





8.1.5 选项 


Ruby 正则 表达 式 末 尾 斜 杜 的 后 面 ， 可 以 为 这 个 正则 表达 式 添加 选项 ， 
如 图 8-1 所 示 。 


/ruby/i # 不 区 分 大 小 写 
/a=#{a}/o  # 只 展开 一 次 
/Hu/e 和 文字 代码 为 EUC 
/i 为 wy/ei # 可 指定 多 个 选项 





图 8-1 选项 的 例子 
可 以 指定 的 选项 示 于 表 8-4 中 。 
表 8-4 正则 表达 式 的 选项 
































pe 一 一 一 





日 假定 是 SJIS 字 符 串 进行 匹配 
假定 是 UTF-8 字 符 串 进行 匹配 
看 做 是 字 节 串 进行 匹配 


使 用 i 选 项 则 正则 表达 式 匹 配 的 时 候 ， 不 区 分 字母 的 大 小 写 。i 指 


ignore case。 


0 选项 表示 只 展开 一 次 。Ruby 的 正则 表达 式 和 字符 串 中 ， 以 #{} 包 起 来 




















的 部 分 ， 可 以 填 入 任意 表达 式 的 值 ， 这 称 为 展开 。 正 则 表达 式 附 带 o 选 
项 时 ， 展 开 只 限于 第 一 次 。o 指 once。 


m 选项 表示 多 行 匹 配 模式 。 通 常 ，. 不 匹配 换行 符 ，^ 和 $ 也 匹配 字符 串 
中 途 的 换行 符 ， 但 使 用 m 选项 ， 则 将 多 行 看 做 是 一 个 整体 字符 串 。 

这 样 一 来 ， 不 需要 特别 换行 处 理 ， 就 能 跨越 多 行进 行 东 配 。. 也 能 匹配 
换行 符 ，^ 也 只 能 做 到 匹配 字符 串 头 ，$ 则 只 能 做 到 匹配 字符 串 尾 。m 


指 multi-line。 


附加 x 选项 后 ， 可 以 在 正则 表达 式 中 有 意义 的 分 隔 处 加 上 空格 或 注释 。 
这 种 扩展 正则 表达 式 ， 比 起 难 读 的 正则 表达 式 来 ， 可 以 写 得 明白 易 懂 。 
比如 2007-05-03 这 样 的 日 期 ， 可 以 用 下 面 的 正则 表达 式 来 匹配 。 


/\d{4}-?\d{1,2}-?\d{1,2}/ 

















用 扩展 正则 表达 式 ， 加 上 缩 进 和 注释 ， 可 以 写 得 更 加 易 懂 。 








附加 了 x 选项 的 正则 表达 式 中 想 要 匹配 空格 时 ， 用 \s。x 表示 


extended 。 


剩 下 的 选项 e、s、u\、a 是 指 文字 代码 ， 分 别 是 EUC-JP、Shift JIS、 
UTF-8、NONE 〈 字 节 串 ) 的 意思 。 但 Ruby 1.9 里 ， 每 一 个 文件 指定 一 
种 文字 代码 ， 几 乎 没有 以 正则 表达 式 为 单位 使 用 这 些 选项 的 情况 。 
正则 表达 式 对 象 的 方法 示 于 表 8-5 中 ， 只 有 6 个， 其 中 还 有 3 个 是 同一 
方法 。 结 果 ， 正 则 表达 式 对 象 的 本 质 只 有 “匹配 ?这 一 点 了 。 正 则 表达 式 
的 类 方法 示 于 表 8-6 中 。 


表 8-5 ”正则 表达 式 对 象 的 方法 
Fe 




















8.1.6 ”正则 表达 式 匹 配 的 方法 


正则 表达 式 匹 配 使 用 =~ 方法 或 match 方法 。=~ 方法 在 匹配 成 功 时 ， 返 
回 代 表 匹 配 处 位 置 的 整数 《字符 串 开头 是 0) ， 相 当 于 以 下 代码 中 的 第 
工行 。 

match 方法 在 匹配 成 功 时 ， 返 回 代 表 匹 配 信息 的 MatchData 对 象 ， 相 
当 于 以 下 代码 中 的 第 2 行 。 匹 配 不 成 功 时 ， 两 种 方法 都 返回 nil。 


/P.*1/ =~ "Perl" # => 0 
/P.*1/.match("Perl") 
# => 《MatchData:6Xx401b8> 











匹配 所 使 用 的 =~ 方法 在 字符 串 类 中 也 有 定义 ， 刚 才 所 示 代 码 像 下 面 这 
样 左右 对 调 ， 也 具有 同样 意义 。 


"Perl" =~ /P.*1/ # => 0 


| | 
但 有 一 点 应 当 注 意 。 当 =~ 两 边 都 是 字符 串 时 ， 右 边 作 为 模式 来 解释 。 











从 match 方法 的 返回 值 MatchData 中 ， 可 以 获取 匹配 位 置 、 部 分 匹配 
括号 括 起 来 的 部 分 ) 、 对 象 本 身 ， 以 及 匹配 前 后 的 字符 串 。 部 分 匹配 
的 下 标 指 定 为 0 时 ， 可 以 取出 匹配 全 体 。 


MatchData 类 的 方法 示 于 表 8-7。 实 际 使 用 例 示 于 图 8-2。 





表 8-7 MatchData 类 的 方法 





第 n 个 括号 匹配 字符 串 

第 n 次 部 分 匹配 的 末尾 

第 n 次 部 分 匹配 的 位 置 (开头 和 末尾 ) 
匹配 部 分 之 后 的 字符 串 

匹配 部 分 之 前 的 字符 串 


匹配 对 象 字 符 串 























m = /a(.)(.)/.match("abc") 


"abc" 《匹配 全 体 ) 
"b" (第 1 个 括号 ) 
86《〈 匹 配 全 体 ) 

1 第 1 个 括号 ) 
[2,2]《〈 第 2 个 括号 ) 


m[8] # 
m[1] # 
m.begin(68) # 
# 
# 





m.begin(1) 
m.offset(2) 


[Li ee | 
VV Vv vv vv 























图 8-2 ”正则 表达 式 的 使 用 方法 


8.1.7 ”特殊 变量 


Ruby 中 有 起 源 于 Perl 的 特殊 变量 。 以 $ 开 头 的 这 些 变量 ， 有 使 程序 变 得 
丑陋 的 倾 问 ， 所 以 容易 让 程序 员 们 的 讨厌 。 但 有 一 种 好 处 ， 对 于 那 种 只 
用 一 次 ， 写 完 就 扔 的 短程 序 而 言 ， 使 用 特殊 变量 可 以 使 程序 变 得 简短 。 
与 正则 表达 式 相 关 的 特殊 变量 示 于 表 8-8。 


表 8-8 与 正则 表达 式 相 关 的 特殊 变量 








站 最 后 的 MatchData (与 regexp.1last_match 相同 ) 
最 后 的 匹配 字符 中 





$s” “| 位 于 匹配 前 的 字符 串 
$s” ”| 位 于 匹配 后 的 字符 串 
匹配 最 后 括号 的 字符 囊 


sn “| 第 个 括号 相对 应 的 字符 串 《n 为 1，2，3 等 ) 








8.1.8 字符 串 与 正则 表达 式 

正则 表达 式 的 目的 就 在 于 匹配 字符 串 ， 与 字符 串 关 联 束 是 它 的 全 部 意 
义 。Ruby 中 字符 串 对 象 也 使 用 很 多 的 正则 表达 式 。 这 里 讲解 字符 串 对 
象 里 使 用 的 正则 表达 式 。 

与 正则 表达 式 相 关 的 字符 串 对 象 的 方法 示 于 表 8-9。 


表 8-9 与 正则 表达 式 相关 的 字符 串 对 象 的 方法 














守 串 置换 
gsub! (re,str) | 字符 串 置 换 


rindex (re) 从 后 面 开 始 的 index 


scan (re) 循环 匹配 


TOE 


sub (re,str) 




















[index] 与 [rindex] 是 检索 部 分 字符 串 的 方法 。 可 以 指定 正则 表达 式 
来 代 蔡 部 分 字符 串 。“[] ”与 <[]= ”是 取出 部 分 字符 串 的 方法 ， 可 以 用 正 
则 表达 式 来 指定 位 置 。 

8.1.9 split 的 本 质 

分 割 字 符 串 的 方法 split ， 与 正则 表达 式 组 合 起 来 能 实现 很 多 功能 。 
首先 ， 用 固定 字符 串 (1 个 字符 ) 分 割 字 符 串 时 用 下 面 的 写法 。 





".split(",") 
"a", "b", Ge 





同样 ， 也 可 以 用 正则 表达 式 来 分 割 ， 以 下 是 用 ,或 者 :来 进行 分 割 。 当 然 
可 以 用 更 复杂 的 模式 。 


"a,b:c".split(/[,:]/) # => ["a","b","c"] 








可 以 像 下 面 这 样 用 HTML (或 XML) 的 标签 部 分 来 分 割 ， 以 数组 的 方 
式 取得 标签 包 起 来 的 部 分 。 


str.split(/<.*?>/) 





如 果 不 想 去 掉 标 签 部 分 ， 而 是 将 其 原封 保存 下 来 ， 可 以 像 下 面 这 样 ， 用 
a 因为 用 split 方法 ， 括 号 包 起 来 的 部 分 包含 在 数 
组 中 。 








str = "<UL><1i>a<1li>b</u1l>” 
str.split(/(<.*?>)/) 
# 分 割 成 这 种 样子 


[oly el a ldo br refuly"] 





| 


8.1.10 ”字符 串 的 扫 摘 


上 面 讲 了 split 方法 用 正则 表达 式 来 分 割 字 符 串 ，scan 方法 可 以 像 下 
面 这 样 ， 取 出 与 字符 串 相 匹配 的 部 分 。 


"foo".scan (/./) 
# => ["f","o0","0o"] 








scan 方法 的 正则 表达 式 中 包含 括号 的 时 候 ， 每 个 匹配 就 会 追加 一 个 数 
组 ， 该 数组 由 括号 中 匹配 的 字符 串 构 成 。 也 就 是 说 ， 这 时 的 scan 方法 
返回 由 字符 串 数组 构成 的 数组 。 


"fo".scan(/(.)(.) /) 
CL 0] 





scan 方法 后 面 如 果 指 定 了 用 花 括 号 《〈{} ) 括 起 来 的 程序 块 ， 则 对 于 每 
一 个 匹配 ， 都 执行 该 程序 块 。 


"foobarbazfoobarbaz".scan (/ba./){|s| p s} 
# 输出 以 下 行 

"bar" 

"baz" 





# 
# 
# "bar" 
# "baz" 








下 面 代码 执行 同样 的 动作 。 它 不 生成 无 用 的 数组 ， 效 率 和 局 一 点 。 


"foobarbazfoobarbaz".scan (/ba./).each {|s| p s} 


8.1.11 置换 


想 要 置换 与 字符 串 模 式 匹 配 的 部 分 ， 可 以 用 置换 方法 。 置 换 方 法 有 4 
种 ， 根 据 用 途 分 别 使 用 (参见 表 8- 10) 。 


表 8-10 置换 方法 
方法 | 复数 置换 | 字符 串 的 更 新 | 不 更 新 返回 nil 

















置换 方法 中 的 sub 方法 ， 仅 仅 置换 与 模式 匹配 的 最 初 部 分 。gsub (8g 
指 global) 方法 置换 与 模式 匹配 的 所 有 部 分 。 方 法 名 后 附加 !， 表 明 置 换 
字符 串 本 身 如 果 模 式 不 匹配 ， 则 返回 nil ， 方 法 名 后 没有 !， 返 回 进行 
置换 的 字符 串 ， 原 字符 串 不 发 生变 化 (参见 图 8-3) 。 


a = "abcabc" 
.sub (/b/, 'B') 
=> "aBcabc" (a 没 变 化 ) 
.sub! (/b/, 'B') 
=> "aBcabc"(a 也 更 新 ) 
.sub! (/d/, 'D') 
=> nil (因为 不 匹配 ) 














= "abcabc" 
.gsub (/b/, 'B') 
# => "aBcaBc" 





图 8-3 置换 的 例子 


几乎 在 所 有 的 情况 下 ， 模 式 都 不 是 去 匹配 固定 字符 串 ， 而 是 要 [匹配 各 种 
各 样 的 字符 串 。 很 自然 ， 想 根据 匹配 结果 决定 用 什么 字符 串 进 行 置换 。 
对 于 这 一 要 求 ， 有 下 述 两 种 对 应 方法 。 


一 是 使 用 表示 置换 字符 串 中 匹配 结果 的 元 字符 。 在 置换 方法 第 2 个 参数 
指定 的 置换 字符 串 中 ，\&、\0 是 整个 匹配 部 分 的 字符 串 ，\1. . . \9 是 
第 nm 个 括号 内 匹配 的 字符 串 。 





置换 字符 串 中 可 以 使 用 \”、N "和 AN+ 。 它 们 与 $$、$' 和 $+ 相对 应 。 


= "abcabc" 
.Sub(/[bc]/,'(\&)') 
=> "a (b) cabc" 





二 是 使 用 block。 省 略 置 换 方法 的 第 2 个 参数 (置换 字符 串 ) ， 代 之 以 
block。 用 block 的 执行 结果 来 置换 与 正则 表达 式 相 匹配 的 部 分 。 


"foobarbazfoobarbaz".gsub(/ba./) {|s|s.upcase} 
# =>"fooBARBAZfooBARBAZ" 








置换 字符 串 不 能 使 用 $1 等 特殊 变量 。 因 为 对 字符 串 进 行 运算 那 一 时 
刻 ， 还 没 开始 匹配 。 另 外 ， 用 双 引 号 《〈"”"”) 引起 来 的 字符 串 中 ， 如 有 宁 
有 反 斜 本 (\)〉， 必 须 进行 转 义 处 理 ， 所 以 建议 使 用 单 引 写 ('' ) 。 


用 参数 指定 置换 字符 串 时 ， 常 犯 的 错误 示 于 图 8-4。 


"abbbcd' 
gsub (/a (b+) /,"#{$1}") 
错误 
gsub (/a (b+) /, " 
错误 
gsub (/a (b+) /， 
正确 
gs 
正 胡 


(/a (b+) /，, 


正 丰 
gs 
正确 


(/a (b+) /) 


并 WW 并 并 WW 半 VW 半音 


| 
b 
| 
gsub (/a (b+) /， 
| 
b 
上 














图 8-4 常 犯 的 错误 


第 一 个 错误 在 于 式 子 展开 是 在 调用 gsub 之 前 进行 的 ， 展 开 的 是 匹配 之 
前 的 $1 的 值 。 

















第 二 个 错误 在 于 用 双 引 号 〈"" ) 将 置换 字符 串 引 起 来 。\1 被 解释 成 
\001， 也 束 是 字 节 值 为 1。 


8.2 正则 表达 式 的 应 用 实例 与 “ 鬼 车 ” 


首先 简单 整理 一 下 正则 表达 式 。 所 谓 正 则 表达 式 ， 是 表达 字符 串 模 式 的 
RR 正则 表达 式 由 字符 本 映 、 字 符 模 式 、 销 点 以 及 重复 等 组 
合 而 成 。 


比如 说 ，a 是 与 字母 a 相 匹 配 的 正则 表达 式 。“.” 是 除 换行 以 外 能 与 任何 
0 “是 指 其 近 前 的 正则 表达 式 重复 0 次 
以 上 。 


像 “”、“*” 那 样 ， 能 够 表达 某 种 含义 的 字符 称 为 元 字符 。 正 则 表达 式 的 
元 和 未 于 下 811， 将 元 字符 作为 普通 字符 使 用 的 时 候 ， 在 其 前 面 加 反 
斜 杠 (\) 


表 8-11 正则 表达 式 的 元 字符 


Ez A 


村 














[a-z] 到 z 之 间 任 何 一 个 


[re-a] 指 。 到 z 以 外 的 字符 


aa 
本 成 司 的 尝 特区 外 

\'s “| 非 空白 文字 

UE ET 


0 次 以 上 
E 复 1 次 以 上 
E 复 0 次 或 1 次 

EE 复 m 次 到 n 次 

E 复 0 次 以 上 (懒惰 匹 配 ) 
E 复 1 次 以 上 (懒惰 匹配 ) 
E 复 0 次 或 1 次 (懒惰 匹配 ) 
E 复 m 次 到 n 次 (懒惰 匹配 ) 


























backspace(0x08)([] 内 ) 
词 头 或 词尾 〈D 外 ) 


词 头 亦 非 词尾 








且 (有 向 后 引用 ) 





日 (对 应 第 n 个 括 弧 ) 











特 这 些 组 合 起 来 ， 就 可 以 写 出 正则 表达 式 的 各 种 模式 来。 比如 下面 这 
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就 表示 a 的 后 面 跟 任意 的 文字 。 也 就 是 说 ，a、ab 和 aabc 都 能 匹配 。 请 
注意 ，“*” 是 指 重 复 0 次 以 上 上， 单单 a 也 能 匹配 。 


8.2.1 解析 日 志文 件 的 方法 


现在 来 看 看 正则 表达 式 的 使 用 。 图 8-5 所 示 的 是 HTTP 服务 器 Apache 
记录 在 访问 日 志 里 的 信息 。 因 为 一 行 太 长 了 ， 所 以 换行 表示 。 


下 区 于 Ey Ei Dem [fit] 


202 .JO .I .KKK - - [07/Apr/2008:16:36:43 +0900] "GET /~matz/20080323 .html HITTP/1 .0" 200 5563 





7 "http://www.rubyist .net/~matz/20080323.html" "Mozilla/5.0 [ja] (Xll;I; Linux 2.6.18-5 i686 





; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13 


图 8-5 Apache 访问 日 志 的 例子 


在 这 个 访问 日 志 里 ， 含 有 了 卫 地 址 (为 了 保护 个 人 信息 ， 图 中 具体 的 了 
地 址 以 xxx 置换) 、 日 期 、HTTP 请 求 、 返 回 码 、 文 件 长 度 以 及 访问 源 
的 URL 等 信息 。 

这 些 信息 ， 我 们 一 看 就 能 简单 地 理解 ， 但 若 要 以 计算 机 容易 处 理 的 形式 
取出 则 很 麻烦 。 这 时 候 就 该 正则 表达 式 显 威力 了 。 

首先 取出 IP 地 址 。 想 一 想 卫 地 址 应 该 具有 怎样 的 模式 吧 。 严 说 一 点 

说 ， 就 是 由 点 (.) 连 起 来 的 4 个 1 到 255 之 间 的 十 进 制 数 ， 也 可 以 认 
为 是 由 点 连 起 来 的 4 个 数 。 这 样 ， 模 式 就 成 为 下 面 这 个 样子 。 


\d+\.\d+\.\d+\.\d+ 


解释 一 下 这 个 模式 。\d 与 数字 匹配 ，+ 是 重复 工 次 以 上 ，\. 匹配 点 本 
0 
样子 。 


\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} 


具体 程序 如 图 8-6 所 示 。 图 8-6 的 程序 放 在 文件 log1.rb 中 。 








1 #! /usr/bin/ruby 一 - Es 
2 ip = Hash.new(0) 生成 哈 希 表 ， 当 访问 不 
3 ARGF.each do |line| 存在 的 元 素 时 ， 返 回 0 
4 if /^\d+\.\dt+\.\d+\.\d+/ =~ line 一 -一 一 一 
5 ip[$&] += 1 对 命令 行 指 定 的 文件 的 
6 end 每 一 行进 行 匹 配 循 环 

7 end 

8 printf "$15s $s\n", "IP addr", "num" 

9 ip.each do |ip,n| 


10 printf "%15s %d\n", ip, n 
11 end 


图 8-6 对 IP 地 址 进行 计数 的 日 志 解 析 程 序 


ruby log1.rb logfile 





人 
次 数 。 


说 明 一 下 图 8-6 所 示 程 序 的 内 容 。 第 2 行 ， 生 成 了 一 个 访问 不 存在 的 元 
素 时 返回 0 的 哈 希 表 。 


第 3 行 到 第 7 行 ， 对 于 由 命令 行 参数 指定 的 文件 的 各 行进 行 循环 操作 。 


循环 中 ， 对 读 入 到 名 为 line 的 局 部 变量 中 的 各 行 ， 执 行 正 则 表达 式 的 匹 
配 。 


Ruby 中 ， 将 正则 表达 式 租 入 到 一 对 斜 柱 (/) 中 来 记述 。=~ 是 匹配 运算 
符 。 为 了 只 匹配 行 首 的 卫 地址 ， 用 了 表示 行 首 的 正则 表达 式 ^ 。 


匹配 成 功 的 情况 下 ， 把 哈 希 表 中 该 IP 地 址 对 应 的 哈 希 值 增 加 1， 进 行 计 
数 。 匹 配 的 字符 串 放 在 变量 g%& 中 ， 以 此 为 键 值 操作 哈 希 表 。 


这 里 ， 把 哈 希 表 的 缺 省 值 设置 为 0 就 起 到 了 作用 。 用 += 运 算 符 给 指定 的 
元 素 计 数 时 ， 一 开始 是 疝 未 定义 返回 0， 然 后 将 其 加 1， 正 好 是 该 元 素 
的 计数 值 。 

现在 ， 提 取 日 期 信息 ， 取 出 每 个 日 期 中 访问 最 多 的 3 个 URL 吧 。 


从 图 8-5 的 日 志 信 息 中 看 ， 日 期 是 [07/Apr/2008:16:36:43 +0900] 这 样 的 
形式 。URL 的 格式 是 GET /~matz/20080323.html HTTP/1.0。 


首先 ， 来 考虑 一 下 [匹配 这 个 日 志 中 所 含 日 期 形式 的 正则 表达 式 。 


日 期 是 由 两 位 数字 、/、 月 的 名 字 (3 个 字符 ) 、/， 以 及 4 位 数字 所 构 
成 。 正 则 表达 式 就 写成 


\d{2}/[A-Z]j[a-z][a-z]/\d{4} 


[A-Z] 是 与 A 到 Z 之 间 的 任意 一 个 字符 匹配 的 正则 表达 式 ， 称 为 字符 
类 。 同 样 ，[a-z] 是 与 小 写字 母 匹 配 的 正则 表达 式 。 


另外 ， 访 问 对 象 可 以 用 下 式 取 出 。 























GET [^ ]+ HTTP 


字符 类 中 开头 的 ^ 表 示 取 反 ， 所 以 ，[^] 是 与 空格 之 外 的 字符 相 匹配 的 


子 付 尖 。 


可 是 ， 这 个 正则 表达 式 连 前 后 的 GET 和 HTTP 也 匹配 了 。 但 要 不 包含 
它们 ， 可 能 把 日 志 中 别 的 部 分 也 匹配 了 。 这 种 情况 下 ， 将 想 要 取出 的 部 
分 用 括号 括 起 来 ， 就 可 以 只 取出 匹配 的 字符 串 。 就 像 下 面 这 样 ， 


GET ([^ ]+) HTTP 


匹配 成 功 以 后 ， 括 号 内 对 应 的 字符 哩 可 以 用 $%1 等 取出 。 只 要 记 住 这 一 
点 就 行 了 ， 第 nm 个 括号 内 对 应 的 字符 串 保 存 到 $n 中 去 了 。 


使 用 这 些 知 识 ， 编 写 取 出 每 个 日 期 中 访问 最 多 的 3 个 URL 的 程序 ， 如 
图 8-7 所 示 。 





1 #! /usr/bin/ruby 

2 date = {} 

3 ARGF.each do |line| 

4 if /\d\d\/[A-2Z] [a-z] [a-z]\/\d\d/ =~ line 





5 date[$&] ||= Hash.new(0) 

6 dic = date[s$&] 

J if /GET ([^ ]+) HTTP/ =~ line 
8 dic[$1] += 1 

9 end 

10 end 

11 end 


12 printf "%lSs $%s\n", "IP addr", "num" 

13 date.keys.sort.each do |qd| 

14 puts d 

15 date[d] .sort_by{|k,v| -=v}[0..2] .each do |url,n| 


16 printf "$-25s $d\n", url, n 
i end 
18 end 


图 8-7 取出 每 个 日 期 中 访问 数 最 多 的 URL 的 日 志 解 析 程 序 


其 基本 结构 与 图 8-6 的 程序 是 一 样 的。 一 个 区 别 是 ， 为 了 按 日 期 对 URL 
的 访问 次 数 进行 排序 ， 更 改 了 哈 希 表 的 结构 : 从 “IP 地 址 -计数 ”这 种 单 
纯 的 哈 希 表 ， 变 成 “日 期 {访问 URL 二 计数 > 这 种 二 重 哈 希 与 日 期 对 应 
的 哈 希 表 ， 而 这 个 哈 希 表 中 访问 URL 对 应 计数 。 另 一 个 区 别 是 ， 为 了 








计算 每 个 日 期 的 访问 数 的 前 3 名 ， 对 日 期 及 计数 进行 了 排序 。 

特别 是 ， 为 了 以 计数 为 基础 对 哈 希 表 进 行 排序 ， 使 用 了 sort_by 方法 

oi 0 
效 : 

使 用 正则 表达 式 时 应 注意 以 下 两 点 。 


。 /是 正则 表达 式 的 分 割 符 ( 开 始 及 结尾 标志 ) ， 虽 然 不 是 元 字符 ， 
但 用 作 普 通 字 符 时 有 必要 以 反 和 斜 杆 进行 转 义 。 


。 取出 匹配 的 字符 串 全 体 时 用 $& ; 取出 括 写 里 对 应 的 字符 串 时 用 $1 








通过 图 8-6 和 图 8-7 所 示 程 序 的 应 用 ， 从 日 志文 件 中 提取 出 符合 特定 模 
式 的 行 束 变 得 轻松 了 。 


8.2.2 ”避免 使 用 $ 的 方法 


但 是 ， 满 是 记号 g%& 和 $1 的 程序 看 起 来 可 不 怎么 美观 。Ruby 中 ， 以 
match 方法 代 蔡 =~* 运算 符 ， 就 可 以 在 程序 中 不 使 用 这 些 记 号 了 。 图 8-8 
所 示 的 程序 是 用 match 方法 重 写 了 图 8-7 的 程序 。 


=~ 运算 符 在 模式 匹配 成 功 的 时 候 ， 返 回 匹 配 位置 (整数 ) ， 而 match 
方法 在 匹配 成 功 的 时 候 ， 返 回 MatchData 对 象 ， 该 对 象 中 存放 着 所 有 
关于 模式 匹配 的 信息 。 


另外 ， 不 管 是 =~ 运算 符 还 是 match 方法 ， 失 败 时 都 返回 nil。nil 看 做 
古 假 ， 常 作为 一 个 惯用 句 放 在 站 的 判断 条 件 里 使 用 。 











1 #! /usr/bin/ruby 

2 date = {} 

3 ARGF .each do |line| 

4 if m = /\d\d\/ [A-Z] [a-z] [a-z]\/\d\d/ .match(line) 

5 date[m[0]]||= Hash .new'(0) | 
6 dic = date[m[0]] 
7 if m = /GET ([^ ]+) HTTP/ .match(line) 

8 dic{[m[1]] += 1 

9 end 

10 end 

11 end 

12 printf "%1l5s %s\n", "IP addr", "num" 

13 date.keys.sort.each do |dl| 

14 puts ad 

15 date[d] .sort_by{|k,v| -v} [0..2] .each do |url,n| 
16 printf "“$-25s $%d\n", url, n 

ry! end 





8-8 使 用 match 方法 的 日 志 解 析 程序 


如 果 将 MatchData 对 象 放 入 变量 m 中 ， 则 通过 m[6] 可 获取 匹配 全 体 ， 
通过 m[n] 可 获取 第 n 个 括号 所 匹配 的 部 分 字符 串 。 用 m[1] 取代 $1 - 
底 有 多 好 ，$ 有 那么 讨厌 吗 ? 等 等 疑问 你 或 许 也 想 过 ， 但 暂时 先 别 管 

些 。 








Ruby 1.9 更 进 了 一 步 ， 在 下 面 的 条 件 全 部 满足 时 ， 部 分 匹配 的 结 末 会 目 
号 全 站 月 闻 变量 这 些 条 件 是 :正则 表达 式 由 常数 字符 串 指定 (不 能 
有 变量 赋值 ) ， 用 =~ 运算 符 进 行 匹 配 ; 使 用 带 名 字 的 部 分 匹配 ; 融 名 
字 的 部 分 匹配 所 指定 的 名 字 是 有 效 的 局 部 变量 ， 该 名 字 不 是 既 存 的 变 


量 。 


使 用 Ruby 1.9 的 自动 赋值 的 例子 示 于 图 8-9。 














if /(?<first name>\w+) \s+(?<last name>\w+)/ =~ "Yukihiro Matsumoto" 
p first name #=> "Yukihiro" 
p last name #=> "Matsumoto" 


end 





图 8-9 ”使 用 Ruby 1.9 的 自动 赋值 的 例子 
MatchData 类 的 方法 示 于 表 8-12。 


表 8-12 MatchData 类 的 方法 
| 


方 法 名 含 义 
m[n] 第 n 个 括号 匹配 字符 串 





第 n 个 部 分 匹配 的 开头 
第 n 个 部 分 匹配 的 末尾 

区 

第 n 个 部 分 匹配 的 位 置 (开头 和 末 











匹配 部 分 之 后 的 字符 串 





L 配 部 分 之 前 的 字符 串 
分 匹配 的 个 数 
匹配 对 象 字 符 串 


| 








wm wm 
dd | 
让] N 
已 | m 
一 | 

ma 

| 


8.2.3 从 邮件 中 取出 日 期 的 方法 


前 几 天 ， 看 了 Mac OS X 的 宣传 录像 ， 其 中 讲解 了 邮件 的 最 新 功能 。 点 
击 邮件 中 看 起 来 像 日 期 的 部 分 ， 日 期 就 会 目 动 排 进 日 历 计划 中 。 对 于 计 
划 多 得 像 雪 片 一 样 的 我 来 说 ， 这 真是 令 人 北 茶 的 功能 。 

想 想 也 是 ， 我 现在 用 自制 的 邮件 阅读 器 ， 如 果 想 要 退 加 这 样 的 功能 也 不 
古 不 可 能 。 现 在 就 挑战 一 下 实现 同样 功能 所 需 的 核心 部 分 一 一 提取 “看 
起 来 像 日 期 的 部 分 ? 吧 。 

看 起 来 像 日 期 ， 说 得 容易 做 着 难 。 自 然 语 言 的 日 期 表示 并 没有 什么 标 

准 ， 表 示 形 式 多 种 多 样 。 为 便于 说 明 ， 我 们 省 去 了 时 刻 。 从 实用 目的 

讲 ， 时 刻 肯 定 也 需要 合适 的 表示 形式 。 


首先 ， 计 算 机 行业 使 用 的 标准 日 期 格式 是 “2009-06-01”， 这 是 由 ISO- 
8601 标准 规定 的 ， 对 应 于 下 面 的 正则 表达 式 。 


\d{4}-\d{2}-\d{2} 


其 次 ， 可 能 会 过 到 日 本 式 的 日 期 表示 形式 “2009 年 6 月 1 日 "， 这 种 情况 
可 以 对 应 于 下 面 的 正则 表达 式 。 


























[6-9 6-9]+ 年 \s*[6-9 6-9]+ 月 \s*[6-9 6-9]+ 日 


因为 要 对 应 全 角 ， 所 以 模式 有 点 长 了 。\s* 是 为 了 匹配 中 途 可 能 出 现 的 


Er 
a 
i 


要 对 应 年 号 ， 年 的 前 面 加 上 下 面 这 些 应 该 更 好 了 。 
(明治 | 大 正 | 昭 和 | 平成 | 西 层 | )Nss 

















当然 ， 计 算 日 期 的 时 候 需 要 加 上 各 个 年 号 的 元 年 。 


英文 的 日 期 表示 形式 太 多 了 ， 让 人 人 无所适从。 首先 ， 年 月 日 的 顺序 不 一 
0 而 美国 的 一 般 是 月 日 
， 欧 洲 的 一 般 是 日 月 年 。 


62.07.08 


如 果 写 成 上 面 这 个 样子 ， 到 底 是 2002 年 7 月 8 日 (日 本 式 ) ， 还 是 
2008 年 2 月 7 日 (美国 式 ) ， 或 者 是 2008 年 7 月 2 日 《欧洲 式 ) 呢 ? 
Re 





Ruby 里 有 一 个 库 parsedate ， 在 这 方面 做 了 不 少 工作 。 


require "parsedate" 
puts ParseDate.parsedate(str) 





调用 以 上 代码 会 返回 “年 、 月 、 日 、 分 、 秒 、 时 区 和 星期 * 的 数组 。 
但 要 注意 ， 这 也 存在 上 述 问 题 ， 


另外 ，Ruby 1.9 已 经 不 支持 parsedate 了 ， 提 供 同 样 功 能 的 是 date 
库 ， 请 使 用 Date.parse 方法 。 


8.2.4 典型 拼写 错误 的 检索 方法 


编辑 文章 时 ， 重 复 助 词 ( 指 日 语 中 的 “ 工 忆 在 慰 ”) 的 情况 时 有 发 生 。 见 
过 “私人 慰 祭 ”这 种 错 吗 ? 其 发 生 原因 是 这 样子 的 。 


比如 “汉字 地 几 丰 文法 ”这 和 句 话 ， 想 把 “> 冯 几 ” 变 成 “* 简 省 ”的 时 候 ， 首 
先 删除 了 “> 之 > 了 上 ”， 然 后 下 意识 地 输入 了 *“ 简 洗 丰 ”一 连 “ 胡 ” 也 输入 
了 ， 结 果 这 人 句 话 变 成 了 “ 简 波 太 胡 文法”。 这 种 意外 的 错误 很 多 ， 我 也 给 
编辑 带 来 了 不 少 麻烦 。 图 8-10 为 用 于 检查 这 类 错误 的 脚本 程序 。 

















1 ARGF.each do |line| 

2 print ARGF.file.path, " " 
3 ARGF .file.lineno, ":" 
4 

5 


line if line.gsub1(/([ 入 绽 扫 这 太 去 在])\1/e, '[[\&]]') 
end 








图 8-10 ”检查 拼写 错误 的 脚本 程序 


这 个 脚本 检查 通过 参数 传 过 来 的 文件 ， 如 果 遇 到 相同 两 个 平 假名 并 列 在 
一 起 的 部 分 ， 就 用 括号 括 起 来 并 告诉 你 。“ 信 必 扫 这 加 忒 雁 ” 看 起 来 虽然 
像 死 语 一 样 ， 根 据 经 验 ， 两 个 字符 连接 的 地 方 最 容易 出 错 。 以 前 曾 用 
了 “两 个 相同 平 假名 连 大 ”检查 集 略 ， 但 这 样 束 把 < Cc”、“《<《 名 ”的 “< 
《4 ”等 《不 该 匹配 的 ) 也 匹配 上 了 。 所 以 稍 作 了 些 限制 。 用 ([ 人 人 包 区 二 
办 忒 雁 ])\1 这 种 正则 表达 式 ， 来 表现 括号 内 包含 的 平 假名 以 及 与 其 相 
同 的 字符 并 列 。 我 的 程序 是 用 EUC-JP 码 写 的 ， 所 以 正则 表达 式 的 后 面 
附带 着 选项 e ， 以 明确 表示 用 的 是 EUC-JP 码 。 置 换 字符 用 的 是 表达 
式 \& ， 用 以 置换 匹配 的 字符 串 。 所 以 ， 用 [[\&]] 来 指定 并 用 [[]] 把 
匹配 全 体 都 括 起 来 。 


还 有 束 是 ， 置 换 用 字符 吕 中 的 反 斜 本 〈) ， 为 了 不 让 它 有 特殊 意义 ， 
不 要 用 双 引 号 ， 推 荐 用 单 引 号 将 其 括 起 来 。 

图 8-9 所 示 脚 本 第 2 行 、 第 3 行 中 ， 用 ARGF.file 输出 正在 读 入 文件 
的 路 径 和 行 号 。gsubl! 方法 在 模式 匹配 成 功 时 ， 返 回 置换 后 的 字符 串 ， 
否则 返回 ni， 所 以 print 只 打印 匹配 成 功 的 行 。 


8.2.5 ”Ruby 1.9 的 新 功能 “ 鬼 车 ” 























到 1.8 版 为 止 ，Ruby 的 正则 表达 式 的 库 是 基于 为 Emacs 编辑 器 开发 的 
库 ， 使 其 对 应 EUC-JP、Shift_JIS 和 UTF-8， 并 追加 了 与 Perl5 的 互 换 功 
能 。 这 个 库 虽 足以 应 付 日 党 的 使 用 ， 但 内 部 构造 很 复杂 ， 无 法 再 进行 改 
善 或 功能 扩展 。 


为 了 打破 这 一 僵局 ，Ruby 1.9 采用 了 称 为 * 鬼 车 ”(oniguruma) 的 新 正则 
表达 式 的 库 。“ 鬼 车 ”的 特征 有 以 下 5 点 。 


e BSD License; 
。 对 应 多 种 编码 方式 ; 
。 Ruby1.8 的 正则 表达 式 库 的 上 位 互 换 ; 











。 高 速 ; 
。 增 加 了 很 多 新 功能 。 
到 Ruby 1.8 为 止 的 正则 表达 式 库 与 “ 鬼 车 ”在 语法 上 的 差异 示 于 图 8-11。 


追加 了 文字 Property 功能 

追加 了 十 六 进 制 数字 类 型 (\h、ANH) 
追加 了 回 读 功 能 

追加 了 贪 禁 型 循环 用 的 元 字符 (3?+、*+、++) 
追加 了 文字 集合 内 的 算 符 ([...]、&&) 

追加 了 带 名 字 的 捕获 式 集合 以 及 部 分 式 调 用 功能 
文字 集合 中 ， 可 以 指定 1 字 节 文字 与 多 字 节 文字 的 范围 
可 以 以 普通 字符 串 指 定 不 完全 循环 的 范围 

追加 了 否定 式 POSIX 方 括号 [:^xxxx:] 
追加 了 POSIX 方 括号 [:ascii:] 

不 再 许可 先 读 循 环 

循环 回 数 指定 时 ， 可 以 省 略 最 低 次 数 〈@ 次 ) 
/a{n}?/ 不 再 是 懒惰 型 算 符 

检查 无 效 的 向 后 引用 ， 报 告 错 误 
























































































































































图 8-11 Ruby 1.8 与 Ruby 1.9 正则 表达 式 的 差异 


基于 “ 鬼 车 ”的 新 功能 ， 之 前 无 法 实现 的 一 些 正则 表达 式 匹 配 也 能 实现 
Ts 


和 
I 回 文 。 


\A(?<a>|.|(?:(?<b>.)\g<a>\k<b+0>))\z 


这 样 写 密度 太 高 了 ， 不 知道 这 是 什么 。 用 扩展 正则 表达 式 ， 加 上 缩 进 和 
注释 重 写 束 变 成 图 8-12 的 样子 。 














加 当世 
4 


鼎 


或 者 1 个 字符 
意 字 符 之 后 
现 回 文 〈 递 归 ) 
与 b 相同 的 字符 
符 串 未 尾 


尘 


|. 
|(?:(?<b>.) 


水 市 





N\g<a> 
N\K<b+6>)) 
\z 


半音 并 间 间 间 林寺 
oT 


el 





图 8-12 重 写 以 后 的 回 文 匹配 


在 “购车 ”中 ， 用 (3?<a>...) 这 种 形式 的 表达 式 给 正则 表达 式 的 一 部 分 起 
名 字 ， 用 \g<a> 这 样 的 表达 式 可 以 递归 调用 起 了 名 字 的 正则 表达 式 。 这 
样 ， 之 前 正则 表达 式 不 可 能 实现 的 伦 套 功能 《比如 对 应 的 括号 等 ) 也 能 
实现 了 。 


好 好 看 看 回 文 的 正则 表达 式 ， 会 知道 这 正 是 回 文 的 声明 性 定义 。 专 家 级 
程序 员 Dave Thomas 对 此 很 赞赏 ， 感 叹 于 “ 鬼 车 ”所 成 束 的 函数 式 编程 。 











DSL 


知道 DSL 这 个 用 语 吗 ?DSL 是 Domain Specific Language 的 简称 ， 意 
指 面向 特定 领域 的 编程 语言 。 这 种 技术 根据 某 个 特定 领域 的 词汇 和 
语法 ， 不 仅 可 以 简化 编程 ， 提 高 生产 性 ， 而 且 有 可 能 让 非 专业 编程 人 
员 直 接 编 写 程 序 的 逻辑 。 


DSL 有 内 部 DSL 和 外 部 DSL。 所 谓 内 部 DSL， 就 是 往 既 存 的 语言 里 
加 入 特定 领域 的 词汇 ， 使 之 DSL 化 。 比 如 ， 软 件 编译 工具 Rake 中 表 
达 依 存 关系 的 Rakefile， 就 是 记述 软件 编译 中 各 种 依存 关系 的 内 部 


DSL.。 


task :default =>[:test] 
task :test do 
ruby "test/unittest.rb" 





end 


上 述 Rakefile 片段 里 ， 简 洁 表 达 了 “ 缺 省 任务 是 test”*”，“test 束 是 用 
ruby 执行 test/unittest.rb” 这 样 的 关系 。 用 Ruby 实现 内 部 DSL， 最 优 
秀 的 一 点 是 ， 即 便 增 加 了 记述 依存 关系 的 词汇 ， 但 因为 使 用 Ruby， 
所 以 可 以 根据 需要 使 用 Ruby 的 全 部 功能 。make 是 一 个 同样 目的 的 工 
有 具 ， 它 使 用 Makefile 来 表达 依存 关系 ， 因 为 难于 处 理 条 件 分 卜 和 任务 
的 模块 化 ， 关 系 一 旦 变 复杂 ， 记 述 也 会 变 得 非常 困难 。 与 make 比 起 
来 ，Rake 可 以 利用 Ruby 的 编程 功能 、 方 法 定义 、 条 件 分 卜 和 循环 
等 ， 不 管 关 系 有 多 复杂 ， 都 可 以 编程 序 对 应 。 用 脚本 语言 开发 软件 ， 
为 达成 软件 目的 的 词汇 越 加 越 多 ， 因 此 内 部 DSL 决定 了 软件 开发 的 
风格 ， 这 直接 关系 到 软件 开发 的 生产 性 。 


所 谓 外 部 DSL， 不 是 扩展 现 有 语言 ， 而 是 面向 特定 目的 ， 准 备 一 种 独 
自 的 语言 。 比 如 ， 访 问 数据 库 的 SQL (Structured Query Language， 
结构 化 得 询 语 言 ) 就 是 DSL 一 个 有 代表 性 的 例子 。 外 部 DLS 与 Ruby 
这 样 的 特定 语言 没有 很 强 的 结合 关系 ， 所 以 既 能 超越 语言 而 共有 知 
识 ， 又 能 为 着 特定 目的 而 进行 优化 。 


本 章 所 讲解 的 正则 表达 式 也 可 以 称 作 是 以 实现 模式 匹配 为 目的 的 外 部 
DSL。 从 一 开始 就 舱 入 到 Ruby 语言 中 ， 没 给 人 留 有 DSL 的 印象 。 但 
正则 表达 式 有 单独 一 门 语言 那么 复杂 ， 这 样 想来 ， 它 有 独立 的 语法 ， 
特定 的 目的 ， 满 足 DSL 的 定义 。 


虽然 AWK 等 脚本 语言 也 与 正则 表达 式 这 样 长 期 共存 ， 但 从 提供 正则 
表达 式 的 代表 性 语言 Perl 6.0 版 开始 ， 与 正则 表达 式 的 关系 就 变 了 。 
Perl 得 益 于 其 中 称 为 rule 的 功能 ， 语 言 本 身 具 备 了 模式 匹配 ， 同 时 应 
用 这 些 ， 提 供 了 可 扩展 语言 语法 本 身 的 功能 。 这 可 以 看 作 是 将 外 部 
DSL 正则 表达 式 吸收 进来 而 进行 的 内 部 DSL 化 尝试 。 


另外 ， 由 内 部 DSL 来 表现 SQL 查询 的 方案 也 已 登场 ， 内 部 DSL 与 外 
部 DSL 的 关系 好 像 一 直 在 变化 。 


不 管 是 哪 一 种 ，DSL 都 直接 关系 到 生产 性 的 技术 ， 今 后 也 有 必要 多 加 


























第 9 章 整数 和 泽 扣 小 数 


9.1 深奥 的 整数 世界 


整数 的 基本 操作 有 加 、 减 、 乘 、 除 四 则 运算 。 编 写 程序 所 用 的 英文 、 数 
Fe 
4 例子 。 


间 = 
间 = 
# = 
间 = 





请 注意 5=2 的 结果 不 是 2.5， 而 是 2。 除 法 运算 的 结果 ， 因 编程 语言 的 
不 同 而 有 所 不 同 。 在 Ruby 中 ， 上 整数 运算 结果 只 计 整 数 ， 除 法 运算 是 舍 
去 余数 后 所 得 的 结果 。 计 算 余 数 的 运算 符 是 % 。 


puts 5%2 # => 1 


对 于 数 的 操作 ， 还 有 比较 运算 (参见 表 9-1) 。 有 了 四 则 运算 和 比较 运 
算 ， 就 可 以 写 简 单 的 计算 程序 了 。 试 写 一 个 计算 阶乘 ! 的 程序 吧 。 


1 所 谓 阶 乘 factorial ) 是 指 对 于 某 个 数值 mm， 从 1 到 的 所 有 整数 的 乘积 。 数 学 中 n 的 阶乘 用 
n ! 来 表示 。4! = 24，1!=1， 但 0!=1 


表 9-1 数 的 比较 运算 









































用 归纳 法 定义 阶乘 ， 就 如 下 面 这 样 。 


若 n=1， 阶 乘 为 1 
若 n>1， 阶 乘 为 nk((n-1) 的 阶乘 ) 





程序 上 大 都 采用 归纳 法 的 定义 ， 使 用 递归 函数 调用 “来 实现 《参见 图 9- 
sR 示 于 图 9- 
2 中。 


2 所 谓 递归 函数 调用 ， 是 指 在 茶 函 数 A 中 再 次 调用 A 函数 本 身 。 








#include “stdio.hy> 
#include <stdlib.h> 


int fact(int n){ 
if(n == 1) return 1; 
return n * fact(n-1); 


} 


int main(int argc,char **argv){ 
int i; 


for (i=1; i<15; i++){ 
printf("fact(%d)=%d\n", i, fact(i)); 
} 
} 











图 9-1 C 语言 的 阶乘 运算 程序 ， 用 了 递归 函数 调用 














fact(1)=1 
fact(2)=2 
fact(3)=6 
fact(4)=24 
fact(5)=120 
fact(6)=720 
fact(7)=5646 
fact(8)=46326 


fact(9)=362886 
fact(16)=3628866 
fact(11)=39916866 
fact(12)=479861666 
fact(13)=1932653564 
fact(14)=1278945286 





图 9-2 图 9-1 的 程序 的 执行 结果 ， 计 算 结果 有 问题 





仔细 看 看 图 9-2， 不 觉得 有 什么 不 对 劲 吗 ? 首先 ，fact(13) 的 结果 是 
1932053504 (1, 932, 053, 504) ， 但 不 是 13 与 fact(12) = 479001600 
相 乘 的 结果 。 用 Ruby 来 确认 一 下 吧 。 


puts 1932653564/4796616668 # => 4 


而 且 ，fact(14) 的 结果 要 比 fact(13) 的 结果 要 小 。 如 果 是 数学 中 的 
整数 ， 这 样 的 结果 显然 让 人 想 不 通 。 


实际 上 ， 这 正 是 计算 机 中 整数 的 特征 。 

9.1.1 整数 是 有 范围 的 

C 语言 中 有 多 种 表示 整数 的 数据 类 型 (参见 表 9-2) 。 每 种 数据 类 型 能 
够 表示 的 整数 位 数 是 一 定 的 。 位 数 是 指 二 进 制 数据 的 位 数 。 正 如 刚才 所 
说 的 ， 二 进 制 中 的 工 位 称 作 1 比特 ， 也 可 以 说 每 种 数据 类 型 占据 的 比特 
数 是 不 一 样 的 。 

表 9-2 C 语 言 的 整数 型 


ee 
char 
int 
long 











rr 








ei i 


nt | CPU 最 容易 处 理 的 范围 32 位 /64 位 
iong 六 /64 位 





C 语言 的 标准 中 ， 只 规定 了 char 三 short 夺 int 三 long 三 long long。 极 端 一 
点 ， 即 使 存在 所 有 这 些 数据 类 型 都 具有 相同 位 数 的 C 语言 处 理 系统 ， 也 
不 为 过 。16 位 计算 机 上 的 C 编译 器 中 int 一 般 是 16 位 的 ， 而 有 的 超级 
计算 机 中 short 以 上 全 是 64 位 。 通 常 ， 整 数位 数 多 如 表 9-2 所 示 。 


返回 到 图 9-2。C 语言 中 如 果 运 算 结果 超出 了 规定 的 位 数 ， 不 会 报错 ， 
洲 出 的 位 仅仅 被 忽视 了 。 阶 乘 计 算 程 序 出 现 异常 的 原因 束 在 于 此 。 


图 9-1 所 示 的 程序 中 用 int 表示 整数 。 我 执行 这 个 程序 使 用 的 C 处 理 系 
统 〈(Intel Core 2Duo，gcc 4.3.3) ，int 是 32 位 。32 位 能 够 表示 的 最 大 
正 整 数 是 (231 -1) 3 ， 也 就 是 2147483647(2,147,483,647)。 











3 为 什么 32 位 能 表示 的 最 大 正 整 数 不 是 2 ， 在 9.1.5 节 中 有 说 明 。 


12 阶乘 的 结果 还 在 此 范围 内 ， 但 13 的 阶乘 
6227020800 (6,227,020,800) 已 经 超出 这 个 范围 。 所 以 从 int 溢出 ， 结 
果 就 变 得 很 奇怪 了 。 


像 C 语言 这 类 整数 位 数 有 限制 的 语言 时 ， 必 须 注意 能 够 表示 的 数值 


实际 上 整数 范围 的 问题 ， 是 连 专家 也 可 能 会 出 错 的 难题 。 


比如 ， 在 Linux 等 UNIX 系列 操作 系统 中 ， 时 刻 是 以 从 Epoch 到 现在 为 
止 的 秒 数 来 表示 的 ，Epoch 是 一 个 特定 的 时 间 《世界 协调 时 间 1970 年 1 
月 工 日 凌晨 0 时 0 分 ) ， 但 存放 这 个 秒 数 的 是 32 位 整数 ， 所 以 到 2038 
年 1 月 19 日 12 时 14 分 7 秒 (日 本 时 间 ) ，32 位 带 符号 整数 所 能 表示 
ee 。 如 果 像 现在 这 样 ，2038 年 以 后 的 时 刻 就 不 能 

和 外。 


在 开发 UNIX 的 20 世纪 60 年 代 末 到 70 年 代 初 ，2038 年 还 是 很 遥远 的 
未 来 ， 而 30 多 年 过 后 如 今 己 经 离 我 们 越 来 越 近 了 。 估 计 到 2038 年 ， 时 
刻 表 示 将 扩展 为 64 位 整数 ， 或 是 128 位 了 。 时 间 的 表示 是 这 种 软件 最 
ee 升级 起 来 相当 困难 ， 我 担心 30 年 后 会 像 2000 年 问题 那样 
引起 喧 器 。 














9.1.2 ”党 试 位 运算 








加 减 乘除 和 比较 是 算术 中 的 基本 运算 。 与 此 对 应 ， 计 算 机 中 还 有 几 个 特 
有 的 整数 运算 ， 都 是 利用 整数 在 计算 机 中 以 二 进 制 来 表示 这 一 性 质 ， 称 
为 位 运算 〈 参 见 表 9-3) 。 按 位 或 、 按 位 与 以 及 按 位 异 或 ， 对 构成 整数 
的 各 位 进行 按 位 运算 。 


表 9-3 ”位 运算 符 











、 


安 位 或 (bit or) 


左 移 (eft shift) 
移 (right shift) 


按 位 运算 在 日 贡生 活 中 几乎 不 使 用 ， 来 复习 一 下 吧 。 
按 位 或 ， 两 边 只 要 有 一 个 是 真 ， 结 果 束 是 真 。 按 位 与 ， 两 边 都 是 真 时 ， 











结 采 才 征 芮 。 按 位 卉 或， 两 边 有 一 边 且 只 有 一 边 是 真 时 ， 结 末 是 黄 。 各 
种 按 位 运算 的 例子 示 于 图 9-3。 
按 位 或 按 位 与 按 拉 异 或 
sa | EDEEIRB 
oll| elolo| BAloll| 
E11 | oll| my:lio| 
图 9-3 ” 按 位 或 、 按 位 与 以 及 按 位 异 或 的 计算 例子 


图 9-3 显示 了 对 两 个 值 进 行 按 位 运算 ， 会 得 到 什么 结果 。 上 端 和 左 并 是 


线 框 内 是 该 组 合 所 对 应 的 演算 结果 。 解 读 此 图 ， 按 位 或 的 结果 如 
下 所 示 。 




















进行 位 运算 时 ， 这 种 按 位 运算 在 二 进 制 数 的 每 一 位 中 进行 。 举 个 例子 ， 


试 计 算 201|5。201 用 二 进 制 表示 就 是 11001001，5 用 二 进 制 表示 为 
101， 运 算 靠 右 对 齐 。 按 照 图 9-3， 每 一 位 边 看 边 写 结果 。 该 位 不 存在 则 
看 做 0。 





11661661 


11661161 





按 位 或 的 结果 是 二 进 制 的 11001101。 变 成 十 进 制 就 是 205。 对 人 来 说 ， 
计算 按 位 或 很 麻烦 ， 但 计算 机 却 最 拿 


puts 261 | 5 # => 265 


别 的 运算 也 一 样 。 


puts 261 & 5 
puts 261 ^ 5 

















按 位 非 则 是 将 每 一 位 求 反 : 1 变 成 0，0 变 成 1。 
还 有 按 位 运算 以 外 的 运算 ， 那 就 是 移 位 。 
移 位 运算 将 数 看 做 是 一 个 二 进 制 的 0 和 1 序列， 向 左 或 向 右 移 动 来 进行 





计算 。 右 移 运算 符 是 >>， 左 移 运算 符 是 <<。 


来 看 看 实际 的 移 位 运算 处 理 吧 。 以 5 为 例 ，5 以 二 进 制 表示 是 101。 疝 
左 移 两 位 就 是 10100。 以 十 进 制 表示 则 是 20。 反 过 来 ，20 (10100) 辣 
右 移 一 位 结果 变 成 1010， 十 进 制 则 是 10 (参见 图 9-4) 。 


puts 5<<2 # => 20 (= 5*4) 
puts 26>>1 # =>16 (= 26/2) 











图 9-4 移 位 运算 的 例子 


根据 二 进 制 的 性 质 ， 左 移 一 位 相当 于 将 数 变 成 2 倍 ， 右 移 一 位 相当 于 将 
数 变 成 一 半 。 这 与 十 进 制 数 移动 一 位 变动 10 售 古 一 样 的 。 


9.1.3 ”操作 特定 的 位 
位 运算 组 合 起 来 ， 可 以 对 存储 在 计算 机 中 的 各 位 进行 自由 操作 。 


计算 机 中 处 理 的 各 种 数据 都 是 以 二 进 制 的 位 来 表示 的 。 文 本 是 由 字符 所 
对 应 编码 的 数字 串 组 成 ， 各 数字 串 最 后 还 是 还 原 成 二 进 制 的 比特 。 图 像 
数据 是 各 个 点 的 颜色 按 一 定形 式 排列 ， 最 后 也 还 是 二 进 制 的 比特 串 。 程 
序 押 处 理 的 对 象 ， 其 全 计算 机 所 执行 的 程序 本 号 ， 识 到 底 都 古 二 进 制 的 


比特 串 

















也 就 是 说 ， 操 作 二 进 制 位 束 等 于 操作 计算 机 的 数据 。 
基本 的 位 处 理 操 作 有 4 种 。 

1. 取出 特定 位 的 状态 。 

2. 特定 位 置 位 〈 设 为 1) 。 

3. 特定 位 清 零 〈 设 为 0) 。 

4. 特定 位 反 转 。 


要 从 一 连 串 二 进 制 位 中 取出 某 一 特定 位 a 的 状态 ， 该 怎么 办 呢 ? 当然 ， 
眼睛 一 看 就 能 知道 ， 但 想 想 用 程序 的 方法 取出 来 。 


这 个 功能 可 以 用 按 位 与 (&) 来 实现 。 按 位 与 的 两 方 之 中 ， 只 要 有 一 方 
是 0， 结果 束 必 然 是 0; 一 方 是 1， 男 一 方 的 结果 就 原封 不 动 返 回 。 所 
以 准备 一 个 数 B， 只 需 将 想 取 出 的 那 一 位 置 设 为 1， 其 余 位 置 设 为 0， 

那么 取 A 与 B 的 按 位 与 ， 就 可 以 只 取出 A 数 中 a 位 的 状态 〈 参 见 图 9- 
Bg 





比特 串 A 


比特 串 B ( 掩 码 ) 





计算 机 结果 
图 9-5 取出 二 进 制 数 A 中 特定 位 a 的 次 态 的 方法 


仅 生 成 菜 一 特定 位 为 1 的 数 ， 可 以 用 移 位 运算 符 。 用 式 1<<n ， 就 可 以 
得 到 仪 某 一 特定 位 为 1 的 数 4。 


4 位 操作 时 ， 第 n 位 是 从 最 后 一 位 开始 数 。 按 C 语言 习惯 ， 最 低位 为 第 0 位 。 
像 B 那样 ， 将 操作 限制 在 特定 位 的 数 称 为 掩 码 。 
为 了 取出 整数 A 第 3 位 的 状态 ， 可 以 用 下 面 的 写法 。 


位 操作 不 仅 可 以 取出 信息 ， 还 可 以 更 新 。 操 作 特 定位 的 时 候 ， 如 条 改变 
了 该 位 以 外 的 信息 ， 可 就 麻烦 了 。 将 操作 限制 在 特定 位 ， 还 是 要 用 掩 
人 码 。 




















比如 ， 将 变量 A 的 第 3 位 设 为 1， 用 按 位 或 写成 以 下 形式 。 


比如 A 是 101 (二 进 制 )， 该 式 就 变 成 





以 下 ， 为 了 明确 区 分 二 进 制 数 与 十 进 制 数 ， 在 二 进 制 数 的 前 面 加 上 0b? 























5 0b 中 上 b 是 英文 二 进 制 binary 的 首 字 母 。C 语言 中 没有 数 的 二 进 制 表示 ，Ruby 中 这 样 表示 二 进 
制 |。 


用 按 位 与 ， 可 以 不 管 原 数 内 容 ， 而 将 其 东 一 位 设 为 1。 


位 清 零 ， 也 就 是 将 茶 一 特定 位 设 为 0， 比 设 为 1 要 贱 烦 些 。 要 用 到 撼 














码 、 按 位 与 及 按 位 取 反 的 组 合 。 要 将 第 2 位 清 零 的 话 ， 就 是 下 面 这 个 样 
子 。 


| 





首先 ， 用 按 位 取 反 做 了 一 个 将 特定 位 清 零 所 需要 的 掩 码 。 计 算 与 此 掩 码 
的 按 位 与 就 能 实现 清 零 操作 。 假 设 A 中 放 0b101，A 是 8 位 。 束 变 成 


A 
A 





6b161 & 6b11111611 
6b661 





最 后 是 位 反 转 ， 也 就 是 1 变 0、0 变 1。 这 与 置 位 (将 某 位 设 为 1) 几乎 
相同 。 用 按 位 异 或 取代 了 按 位 或 。 


A 人 ^= (1<<3) 


编程 中 频繁 使 用 的 位 操作 ， 最 常见 的 例子 是 标志 位 操作 。 用 位 操作 ， 可 
以 将 多 个 标志 位 (指定 ON 或 者 OFF 的 选项 ) 用 一 个 参数 来 传递 。 图 
9-6 是 以 C 语言 记述 的 用 位 操作 实现 的 标志 位 操作 的 例子 。 


/* regexp.h */ 

/* 匹配 不 区 分 大 小 写 */ 

#define REG OPTION IGNORECASE (1L) 

/* 可 以 使 用 perl 风格 的 扩展 模式 */ 

#define REG OPTION EXTENDED (REG OPTION IGNORECASE<<1) 
/* 换行 符 可 以 用 . 匹配 */ 

#define REG OPTION MULTILINE (REG OPTION EXTENDED<<1) 
/* ^ 和 $ 忽 视 换 行 */ 

#define REG OPTION SINGLELINE (REG OPTION MULTILINE<<1) 
/* 检索 最 长 匹配 ， 像 POSIX regexp 一 样 */ 











#define REG OPTION LONGEST (REG OPTION SINGLELINE<<1) 
struct regexp *reg compile pattern(char* str, int option); 


/* 使 用 例 */ 
re = reg compile pattern(pat, REG OPTION IGNORECASE|REG OPTION SINGLELINE); 





图 9-6 C 语言 中 标志 位 操作 的 例子 


图 9-6 中 ， 调 用 假想 的 正则 表达 式 匹 配 函 数 。 末 尾 的 
reg_compile_pattern() 函数 返回 一 个 指针 ， 指 同 对 应 于 参数 传递 过 
来 的 正则 表达 式 的 字符 串 ， 编 译 以 后 得 到 的 正则 表达 式 结构 。 第 2 个 参 
数 是 指定 编译 选项 的 标志 位 ， 用 头 文件 中 定义 的 常数 〈 掩 码 ) 来 指定 。 
想 指 定 多 个 标志 位 时 用 按 位 或 。 一 个 标志 位 都 不 指定 时 ， 第 2 个 参数 为 
0。 

9.1.4 ”表示 负数 的 办 法 


8 位 的 整数 可 以 表示 0~255 之 间 的 数 ， 但 这 样 束 不 能 使 用 负数 了 。 怎 么 
用 二 进 制 来 表示 负数 呢 ? 


有 多 种 方式 可 以 用 来 表示 二 进 制 负数 。 
。 开头 一 位 用 作 符 号 位 。 
。 将 整数 的 各 位 反 转 (1 的 补 数 ) 。 


8 位 整数 的 情况 ，?1 用 前 一 种 方法 表示 是 10000001， 用 第 2 种 方法 表示 
是 11111110。 


但 负数 一 般 用 2 的 补 数 表示 。 所 谓 2 的 补 数 ， 是 将 正 数 的 每 一 位 反 转 ， 
然后 加 1 所 得 的 数 。 比 如 ，-1 的 2 的 补 数 ， 可 以 用 以 下 步骤 来 计算 。 


66666661 ( 数 1) 
11111116 (位 反 转 ) 
11111111 《〔 加 1) 





以 2 的 补 数 来 表示 其 他 负数 ， 会 觉得 有 些 肤 烦 ， 但 有 几 个 重要 的 优点 。 


。 可 以 表示 256 个 数 。 采 用 符号 位 方式 或 工 的 补 数 方式 ，0 和 -0 都 存 
在 ， 只 能 表示 255 个 数 。2 的 补 数 方式 没有 这 种 浪费 。 


。 可 以 直接 运算 。2 的 补 数 方式 ， 不 考虑 符号 ， 直 接 进 行 四 则 运算 惑 
可 以 得 到 正确 结果 。 


特别 是 后 一 种 特性 ， 成 为 2 的 补 数 方式 被 采用 的 最 大 理由 。 采 用 2 的 补 
数 方式 ，8 位 时 能 表示 -128~127。 同 样 ，16 位 时 能 表示 -32 768~32 
767，32 位 时 能 表示 -2 147 483 648~2 147 483 647。 通 常 ，n 位 时 ，2 的 
补 数 方式 能 表示 -(1<<(n -D) ~ (1<<(n -1]))-1 之 间 的 整数 。 





9.1.5 Ruby 的 整数 


学 了 位 操作 ， 再 回 到 阶乘 的 话题 。 图 9-1 的 程序 是 用 C 语言 写 的 ， 下 面 
使 用 Ruby 来 写 。 图 9-7 是 Ruby 的 阶乘 程序 。 


比较 图 9-1 的 程序 (C 版 ) 与 图 9-7 的 程序 (Ruby 版 ) ， 除 了 没有 
四 
不 懂 的 区 别 。 


def fact(n) 
if n == 1 
return 1 
else 
return n * fact(n-1) 
end 
end 


for i in 1..15 
printf "fact(%d)=%d\n", i, fact(i) 
end 











图 9-7 ”Ruby 的 阶乘 计算 程序 


那么 执行 一 下 试 试 吧 (参见 图 9-8) 。 





fact(4)=24 


fact(5)=120 
fact(7)=5646 


fact(9)=362886 
fact(16)=3628866 
fact(11)=39916866 
fact(12)=479861666 
fact(13)=6227626866 
fact(14)=87178291266 
fact(15)=13676743686866 








图 9-8 图 9-7 程序 的 执行 结果 





Ruby 版 的 执行 结果 示 于 图 9-8， 与 图 9-2 的 C 版 执行 结果 比较 一 下 发 
现 ，fact(13) 以 后 的 结果 不 同 。 为 什么 Ruby 版 能 得 到 正确 的 阶乘 结 
果 呢 ? 


C 语言 中 ， 能 表示 的 整数 范围 有 限制 ， 演 算 结果 洲 出 了 ， 既 没 警 告 也 没 
报错 。 而 Ruby 中 能 表示 的 整数 范围 没有 限制 。 


Ruby 的 整数 有 两 种 ， 一 种 是 范围 有 限制 的 整数 Fixznum (32 位 CPU 是 
31 位 ，64 位 CPU 是 63 位，， 男 一 种 是 范围 没有 限制 (超过 内 存 容量 
除外 ) 的 整数 Bignum， 根 据 计 算 结 果 自 动 变换 。 因 为 有 此 功能 ，C 中 
不 能 正确 计算 的 13 以 上 的 阶乘 ， 在 Ruby 中 能 正确 计算 。Ruby 可 以 计 
算 非 党 大 的 数 ， 用 fact() 函数 ， 可 以 计算 100 的 阶乘 (参见 图 9- 

9) 。100 的 阶乘 用 十 进 制 表示 是 158 位 。 可 以 毫 不 费事 地 进行 这 种 计 
算 ， 是 Ruby 的 整数 的 特长 。 








9332621544394415268169923885626670 
04960715968264381621468592963895217 
5999932299156689414639761565182862 
53697926827223758251185210916864606 


860666666606686086066866866666 














图 9-9 用 Ruby 计算 100 阶乘 的 结果 


Bignum 在 内 部 ， 分 别 保存 符号 和 绝对 值 ， 绝 对 值 以 整数 数组 形式 存 
放 。 数 组 的 各 个 元 素 是 32 位 无 符号 整数 " ，Bignum 的 内 部 表示 中 可 以 


看 做 是 4294967296 进 数 。 
6 实际 数组 元 素 的 位 数 因 CPU 及 处 理 系 统 而 有 所 不 同 。 
Bignum 中 符号 另外 保存 ， 与 Fixnum 不 同 ， 内 部 没 用 采用 2 的 补 数 ， 但 


位 运算 在 外 表 上 看 起 来 像 是 采用 了 2 的 补 数 。 对 于 Ruby 的 位 运算 ， 负 
整数 的 左 侧 看 起 来 是 无 限 多 的 1。 所 以 ，Ruby 中 如 果 像 下 面 这 样 写 : 


printf "%x\n", -4 


就 会 得 到 


这 样 谜 一 般 的 字符 串 。 这 是 因为 左 侧 排列 独 无 限 的 1， 所 以 《在 十 六 进 
制 时 ) 就 表示 为 无 限 的 f。 


9.1.6 ”挑战 公开 密 钥 方式 

关于 计算 机 中 的 整数 ， 我 们 讲解 了 四 则 运算 和 位 处 理 ， 最 后 稍微 介绍 一 
下 整数 的 算法 。 

数学 中 ， 整 数 是 从 古代 就 存在 的 概念 ， 所 以 有 很 多 古老 的 算法 。 比 如 称 
为 最 古老 算法 的 欧 几 里 得 算法 。 据 说 ， 欧 几 里 得 生 于 公元 前 330 年 ， 的 


确 很 古老 吧 。 疼 9-10 是 他 发 明 的 用 欧 几 里 得 算法 计算 两 个 数 的 最 大 公 
约 数 的 函数 。 









































cd(x, y) 
6 
































图 9-10 用 欧 几 里 得 算法 计算 最 大 公约 数 


另 一 个 很 古老 的 算法 是 判定 聂 数 的 埃 拉 托 斯 特 尼 筛选 法 。 系 数 是 指 只 能 
被 1 和 其 本 刁 整除 的 数 。 据 说 埃 拉 托 斯 特 尼 生 于 公元 前 275 年 ， 这 当然 
也 是 很 古老 的 算法 。 


图 9-11 是 用 埃 拉 托 斯 特 尼 乌 选 法 计算 100 以 下 素 数 的 程序 。 


sieve = [] 

max = 100 

for i in 2 .. max 
sieve[i] = i 

end 











for i in 2 .. Math.sqrt(max) 
next unless sieve[i] 


(i*i).step(max, i) do |j| 
sieve[j] = nil 
end 
end 


puts sieve.compact.join(", ") 














图 9-11 用 埃 拉 托 斯 特 尼 和 筛选 法 计算 100 以 下 素数 


这 个 算法 很 简单 ， 用 sieve 《和 划 子 ) 这 个 数组 记录 被 判定 为 素数 的 数 
和 其 倍数 。 没 有 多 出 的 数 就 是 没有 约 数 的 数 《〈 素 数 ) 。 


要 说 整数 领域 的 研究 已 经 很 完美 ， 没 有 新 的 算法 出 现 ， 完 全 没 那 回 事 
儿 。 比 如 公开 密 钥 就 是 利用 整数 性 质 的 新 算法 。 公 开 密 钥 算 法 的 代表 
发 明 于 1977 年 ， 跟 欧 几 里 得 与 埃 拉 托 斯 特 尼 比 起 来 ， 完 全 是 现 
尺 的 话题 。 


所 谓 公开 密 钥 加 密 具 有 如 下 的 性 质 ， 用 公 钥 加密 的 字符 串 只 有 用 私 钥 才 
能 解读 ， 反 之 ， 用 私 钥 加 密 的 内 容 只 有 用 公 钥 才 能 解读 。 公 钥 密 码 加 
密 ， 既 可 实现 认证 (自己 确实 拥有 密 铀 的 证 明 ) ， 又 可 实现 加 密 (制作 
密 文 ) 。 


简要 介绍 一 下 公 钥 密码 加 密 的 原理 。 假 设 有 两 个 素数 P 和 qd 存在 ， 从 这 
两 个 数 计算 图 9-12 中 列举 的 数 。 








pq = pxdq 
k = n x (p-1) x (q-1)+1，n 为 任意 正 数 
e,，d = 能 使 ex d =k 的 任意 正 数 




















图 9-12 公开 密 钥 加 密 的 原理 


比如 ，p =3，g =11， 就 成 为 图 9-13 所 示 的 样子 。 这 里 (pq ，e ) 是 公 
铀 ， (pq ，d ) 是 私 钥 。 图 9-14 是 将 密码 及 消息 (整数 数组 ) 进行 加 
密 的 程序 。 实 际 的 公 钥 密码 加 密 程序 也 是 将 文本 先 变 为 整数 数组 ， 然 后 
再 进行 加 密 。 

33 


1 x (3-1) x (11-1)+1 = 21 
3, 7 























图 9-13 公开 密 钥 瞳 号 的 例子 











def rsa(pq, k, mesg) 
mesg.collect{ |x| 
x**k%pq 
} 


end 














图 9-14 公开 密 钥 加 密 的 程序 


公 钥 密码 加 密 听 起 来 很 难 ， 事 实 上 只 要 准备 了 密 钥 ， 如 果 不 用 考虑 效 
率 ， 程 序 就 简单 得 有 点 让 人 失望 。 那 么 ， 实 际 加 密 以 后 ， 再 解读 看 看 吧 
(参见 图 9-15) 。 以 公 钥 3 加 密 的 密 文 ， 再 用 私 钥 7 来 解密 ， 就 能 得 到 
原来 的 文本 。 


orig = [7，13，17，24] 
encode = rsa(33, 3, orig) 

# encode => [13，19，29，36] 
decode = rsa(33, 7, encode) 








# decode => [7，13，17，24] 





图 9-15 ”加 密 与 解密 的 步 又 


此 例 中 ， 已 经 知道 33 是 两 个 素数 的 积 ， 马 上 得 出 p =3，g =11。 知 道 这 
些 ， 很 快 就 能 计算 3 对 应 的 私 钥 是 7。 


但 当 p 与 gq 是 非常 大 的 素数 时 ， 从 积 pq 计算 系数 〈 素 因数 分 解 ) 并 不 
简单 。RSA 暗号 中 一 般 使 用 的 钥 长 (pg 的 位 数 ) 是 1024 位 (二 进 
制 ) 。1024 位 长 的 整数 ， 用 几 千 台 超 级 计算 机 满 负 荷 运行 进行 分 散 处 
理 ， 在 现实 时 间 内 ， 也 难以 进行 素 因 数 分 解 。RSA 加 密 的 强度 〈 解 读 的 
困难 程度 ) ， 就 归 因 于 素 因 数 分 解 的 难度 。 








9.2 ”扑朔迷离 的 译 点 小 数 世 界 


刚 进 小 学 的 时 候 ， 算 术 中 学 到 的 数 是 整数 ， 而 且 仅 有 正 整 数 。 升 到 了 局 
年 级 ， 小 数 登 场 了 ， 像 0.2、1.5 等 。 到 了 中 学 ， 数 的 范围 更 扩大 了 ， 小 
数 被 认为 是 实数 的 一 种 。 


9.2.1 计算 机 对 小 数 的 处 理 


计算 机 也 能 处 理 小 数 。 程 序 中 用 含有 小 数 点 的 数 表 示 小 数 。puts 8.2 

这 句 Ruby 程序 表示 ， 生 成 0.2 这 个 小 数 ， 然 后 输出 。Ruby 中 的 所 有 数 
据 都 是 对 象 ， 所 以 小 数 也 是 对 象 。 表 示 小 数 对 象 的 类 是 Float 。 本 来 

是 数 ， 起 了 float( 漂 浮 ) 这 么 个 奇怪 的 名 字 。 计 算 机 中 的 小 数 被 称 为 浮 
点 数 (floating point number) ， 由 此 得 名 。 


9.2.2 固定 小 数 点 数 不 易 使 用 


所 谓 浮 点 数 ， 是 指 小 数 点 的 位 置 可 以 移动 。 它 与 计算 机 中 数 的 表示 方法 
有 着 密切 的 关系 。 


计算 机 本 来 只 处 理 整数 ， 事 实 上 整数 也 是 二 进 制 的 比特 串 。 所 以 ， 必 须 
要 用 东 种 方法 ， 将 含有 小 数 部 分 的 数 变 成 二 进 制 的 比特 串 《〈 编 码 ) 。 


可 以 考虑 用 几 种 方法 将 小 数 编码 成 二 进 制 。 具 代表 性 的 方法 有 两 种 : 一 
是 抬 高 小 数 进行 整数 化 ;二 是 使 用 科学 计数 法 来 表示 。 


抬 高 小 数 是 指 将 小 数 放 大 ， 比 如 说 100 倍 ! ， 进 行 整数 化 ， 来 表示 小 数 
点 以 下 部 分 的 方法 。 放 大 100 倍 的 方法 ， 能 表示 小 数 点 以 下 两 位 。 这 种 
小 数 表 示 方 法 称 为 固定 小 数 点 数 〈fixed point number) 。 这 种 方法 有 时 
会 用 到 ， 用 于 处 理 明 确 知道 小 数 点 后 的 有 效 位 的 数 。 


1 固定 小 数 点 数 的 表示 不 用 十 进 制 ， 
(比如 256 倍 ) 。 
这 种 用 整数 运算 的 方法 计算 小 数 有 速度 高 的 优点 ， 当 然 也 有 缺点 。 假 设 


抬 高 两 位 《十 进 制 ， 即 放大 100 倍 ) ， 那 么 1 就 成 为 了 1.00， 小 数 后 后 
的 两 位 束 浪 费 了 。 结 果 在 位 数 一 定 的 情况 下 ， 本 来 能 够 表示 的 数 ， 现 在 























用 二 进 制 的 情况 也 很 多 。 这 种 情况 下 ， 放 大 2 的 次 方 倍 


= 
Ws 


























只 能 表示 较 小 的 数 了 整数 部 分 的 浪费 ) ; 十进制 两 位 的 情况 ， 只 能 表 
示 以 0.01 为 单位 的 小 数 《〈 小 数 部 分 的 限制 ) 。 


因为 这 些 理由 ， 固 定 小 数 点 数 的 使 用 不 怎么 广泛 。 

9.2.3 ”科学 计数 法 也 有 问题 

计算 机 中 广泛 使 用 的 小 数 表示 方法 是 科学 计数 法 。 科 学 计数 法 是 指 将 有 
效 数字 和 指数 组 合 起 来 表示 小 数 ( 实 数 ) ， 写 成 2.5 x 104 ， 这 就 是 
25000。 


但 计算 机 是 用 三 进 制 ， 而 不 是 用 十 进 制 来 表示 数 ， 所 以 实际 上 这 个 数 在 
内 部 不 是 以 2.5 和 104 来 记录 的 ， 必 须 变 为 二 进 制 的 比特 串 。 


变 为 比特 串 的 方式 有 多 种 。 以 下 介绍 广泛 采用 的 EEE754 方式 。 


IEEE754 方式 中 ， 为 了 表示 小 数 ， 单 精度 (float) 用 32 位 ， 双 精度 
(Cdouble) 用 64 位 。 有 很 多 CPU 在 计算 浮 点 小 数 时 ， 内 部 用 双 精 度 ? 
进行 计算 ( 单 精度 时 ， 将 双 精 度 计 算 结 果 变 成 单 精度 ) 。 以 下 只 说 明 双 


2 更 精确 的 有 双 精 度 以 上 的 计算 。 比 如 奔腾 以 后 X86 系列 CPU 用 80 位 长 浮 点 数 用 于 内 部 计 
算 。 


表示 双 精 度 64 位 比特 串 示 于 图 9-16， 使 用 +f x 2e 的 形式 。 























a 
基于 
符号 位 指数 部 尾数 部 
图 9-16 IEEE754 中 double 型 浮 点 数 的 内 部 表示 


f 称 为 尾数 部 分 (mantissa) ，e 称 为 指数 部 分 (exponent) 。 双 精度 
中 ， 指 数 部 分 有 11 位 ， 可 以 表示 +1023 ~ -1024， 也 就 是 可 以 表示 2 的 





1023 次 方 。 


尾数 部 分 有 52 位 。IEEE754 规定 ， 尾 数 部 分 的 首位 始终 归 一 化 3 为 1， 
所 以 首位 始终 省 略 “ ， 实 质 有 效 数字 为 53 位 。 


3 比如 想 表 示 48， 可 以 用 3x24 表示 。 所 谓 归 一 化 就 是 将 尾数 部 分 变 成 大 于 等 于 1， 小 于 2 的 
数 ， 写 成 1.5x22 的 形式 。 

















因为 归 一 化 而 被 省 略 的 位 通称 省 略 位 。 
9.2.4 小 数 不 能 完全 表示 
由 
制 |。 





心 


























。 计算 机 中 数 的 表示 有 长 度 〈 位 数 ) 限制 。 
。 计算 机 中 数 的 表示 是 二 进 制 。 


这 与 之 前 讲述 的 计算 机 上 处 理 整数 时 的 限制 没有 差别 。 但 就 小 数 的 情 
形 ， 有 更 复杂 的 事情 。 


一 是 存在 除 不 尽 的 数 。 比 如 在 计算 器 上 输入 1*=3， 马 上 就 知道 ， 即 使 
很 简单 的 计算 也 会 有 除 不 尽 的 数 出 现 ?。 


5 Ruby 中 的 有 理 数 类 (Rational ) 可 以 正确 表示 数学 上 的 有 理 数 《〈 能 表示 为 分 数 的 数 ) 。 






































p 1.6 / 3.6 
# => 0.333333333333333 





还 有 ， 存 在 圆周 率 n( 约 3.14) 、 自 然 对 数 的 底 e( 约 2.72) 这 种 无 限 
不 循环 的 无 理 数 。 这 种 无 限 的 数 不 可 能 放 在 有 限 领 域内 〈 售 入 误差 ) 来 


探讨 。 
更 复杂 的 是 ， 浮 点 数 在 计算 机 内 部 是 以 二 进 制 表示 的 ， 就 是 能 以 十 进 抽 
除 得 尽 的 数 ， 在 二 进 制 也 是 除 不 尽 的 。 比 如 说 ， 小 数 0.2 是 工 除 以 5 所 
得 的 结果 ， 十 进 制 中 能 除 尽 ， 但 二 进 制 中 是 循环 小 数 


(0.0011001100...) 。 





Ruby 中 能 表示 为 0.2， 是 因为 double 精度 高 。 与 实际 值 0.2 足够 接近 的 
数 ， 可 以 表示 为 0.2。 


总 而 言 之 ， 浮 氮 数 其 实 是 真实 数 的 近似 ， 所 以 产生 了 限制 。 以 下 几 点 容 
未 记 ， 一 定 要 时 时 注意 。 


浮 点 数 是 有 限 的 


数学 上 有 的 数 有 无 限 多 位 ， 但 浮 点 数 只 能 拥有 有 限 信 息 。 单 精度 的 浮 点 
2 32 位 ， 双 精度 的 只 有 64 位 。 用 这 么 多 位 表示 出 的 数 也 是 有 限 


浮 点 数 有 误 甘 

这 与 浮 点 数 的 有 限 性 密切 关系。 任意 的 实数 ， 只 要 是 用 有 效 数 字 和 指数 
的 组 合 来 近似 表示 的 ， 有 效 数 字 的 不 足 部 分 被 简单 地 忽略 。 多 次 运算 

后 ， 与 实际 值 的 差 ( 误 差 ) 就 会 积累 起 来 ， 计 算 结 果 与 理论 值 偏差 很 大 
人 

阱 。 

对 于 译 点 小 数 ， 结 合法 不 成 世 

结合 法 是 指 加 法 和 乘法 中 ， 不 管 计算 顺序 怎样 ， 计 算 结果 都 相同 的 法 


则 。 对 于 数学 上 的 数 ， 这 个 法 则 在 实数 范围 内 都 成 立 ， 但 在 浮 点 小 数 中 
就 不 成 立 。 来 看 一 个 具体 的 例子 。 


在 这 个 式 子 中 ，(a+b) 所 产生 的 误 关 有 被 扩大 的 可 能 。 要 得 到 同样 的 结 
果 ， 可 以 写成 以 下 形式 ， 误 差 会 变 小 。 























(axc)+ (bx c) 


9.2.5 ”有 不 能 比较 的 时 候 


虽说 Ruby 中 茶 一 译 点 数 可 以 用 “比较 整 ?的 小 数 来 表示 ， 但 其 内 部 表示 
却 不 一 定 “ 比 较 整 "。Ruby 里 ， 表 示 出 “1.0”*”， 只 十 因为 “聪明 的 ”输出 程 
序 判 定 此 值 与 1.0 足够 接近 而 已 。 


所 以 ， 同 样 表示 为 1.0 的 两 个 值 ， 并 不 能 断定 是 否 真 的 是 同一 个 值 。 来 
看 一 个 例子 


图 9-17 所 示 为 一 小 数 计算 的 简单 程序 。 变 量 one 的 值 为 浮 点 数 
10， 灾 是 Sun 的 人 为 10 个 03 作 训 所 有 的 才 输出 两 个 数 的 值 都 为 











16.times do 


p one #=> 1.06 

p sum #=> 1.06 

p one == sum #=> false(!) 

p one - sum #=> 1.11622362462516e-16 





图 9-17 浮 点 数 运算 的 例子 ，0.1 相 加 10 次 不 能 变 成 1.0 

比较 两 个 数 ， 结 果 却 是 false 。 看 起 来 相同 的 两 个 数 实际 上 并 不 一 
样 。 

两 个 数 相 减 ， 所 得 的 差 是 1.11022302462516e-16 。 写 成 常见 的 形式 就 是 
0.00000000000000011102230462516。0.1 加 10 次 就 产生 了 这 么 大 的 误 
差 。 


这 与 0.1 是 用 二 进 制 表示 的 循环 小 数 有 关 。 假 设计 算是 以 用 二 进 制 能 除 
尽 的 0.5 来 加 10 次 ， 就 不 会 产生 误差 了 。 如 果 不 知道 浮 点 数 的 内 部 表 


示 ， 就 不 可 能 理解 这 一 行为 。 


对 浮 点 数 进行 比较 运算 ， 只 有 两 个 数 在 内 部 表示 是 完全 相同 的 情况 下 才 
判定 为 相等 。 作 为 铁 则 ， 两 个 浮 点 数 不 能 用 == 进行 比较 。 如 果 有 进行 
比较 的 必要 ， 判 断 条 件 中 两 个 数 的 差 要 写 得 足够 小 。 足 够 小 是 个 很 难 的 
和 条件， 根据 处 理 系统 的 不 同 ， 对 于 浮上 点数， 足够 小 的 值 s 有 不 同 的 定 
义 。Ruby 中 是 Float : :EPSILON ， 其 值 为 2.22044604925031e-16。 如 
果 差 比 这 个 值 还 小 ， 可 以 认为 是 舍 入 误差 的 积累 。 这 个 例子 中 ， 误 差 是 
1.1102230462516e-16， 比 2 小 ， 所 以 将 这 两 个 数 判 定 为 相等 也 行 。 











9.2.6 ”误差 积累 


图 9-17 所 示 的 程序 中 ， 两 个 1.0 不 相等 就 是 因为 误差 积累 。 同 样 是 计算 
0.1 的 10 倍 ， 如 宋 用 乘法 运算 ， 这 个 问题 就 不 容易 及 生 了 《参见 图 9- 
18) 。 











p one == mul #=> true 
p one - mul #=> 0.0 








图 9-18 浮 点 数 运算 的 例子 ，0.1 的 10 倍 与 1.0 相当 接近 
图 9-17 中 ， 二 进 制 不 能 除 尽 的 数 0.1 相 加 的 结果 也 是 除 不 尽 的 数 ， 所 以 
就 在 双 精 度 的 表示 范围 内 进行 舍 入 。 计 算 后 舍 入 ， 重 复 10 次 ， 误 差 就 
只 累 起 来 了 。 乘 法 运算 只 对 结果 舍 入 1 次 ， 与 10 次 加 法 相 比 ， 误 差 要 
少 得 多 。 由 此 导出 第 2 条 铁 则 : 减少 运算 次 数 。 
9.2.7 不 是 数 的 特别 “ 数 ” 


IEEE754 中 ， 除 了 普通 的 数 ， 还 定义 了 几 个 特别 的 数 。 不 是 数 的 数 ， 那 
是 什么 蚜 ? 


这 些 “ 数 ”用 于 不 同 于 普通 数 的 目的 。 
无 限 大 














为 了 表示 在 浮 点 数 范 围 内 无 法 表示 的 大 数 ， 提 供 了 无 限 大 〈Inf) 这 个 特 
别 的 数 。 无 限 大 用 于 表示 溢出 错误 。C 语言 中 ， 整 数 运 算 发 生 溢出 后 ， 
运算 结果 会 变 成 某 一 适当 的 值 ， 而 不 产生 错误 。IEEE754 方式 下 ， 发 生 
洲 出 时 ， 不 是 将 结果 变 成 某 一 适当 的 值 ， 而 是 使 用 无 限 大 来 表示 溢出 错 
天 。o 


零 
生疏 


零 是 常见 的 数 ， 但 在 IEEE754 中 进行 了 特别 处 理 。IEEE754 中 ， 零 有 符 
号 ， 正 零 和 负 零 要 区 别 对 待 。 可 能 是 在 除 以 零 的 时 候 ， 为 了 将 结果 区 分 
为 正 无 限 大 或 是 负 无 限 大 。 


NaN 


NaN 是 NotaNumber 〈 非 数 ) 的 缩写 。 说 是 浮 点 数 ， 却 又 是 非 数 ， 很 奇 
怪 啊 。NaN 作为 结果 赋 给 没有 定义 值 的 运算 。 比 如 零 除 以 零 ， 结 果 就 是 
NaN。 一 般 认 为 ,无限 大 是 为 了 表示 洲 出 错误 ， 而 NaN 是 为 了 表示 未 
定义 的 结果 错误 。 


NaN 不 是 正常 值 ， 含 NaN 的 运算 结果 依然 是 NaN。 包 括 NaN 自身 ， 
NaN 与 任何 数 都 不 一 致 。 


包含 这 些 特别 值 的 运算 结果 总 结 在 表 9-4 中 。 
表 9-4 含有 特别 数 的 运算 结果 


























含 NaN 的 运算 |NaN 
9.2.8 ”计算 误差 有 多 种 
浮 点 数 的 运算 会 产生 误 肥 。 但 同 为 误差 ， 还 分 为 几 种 。 
舍 入 误差 
循环 小 数 及 无 理 数 等 有 无 限 多 小 数位 的 数 ， 用 位 数 有 限 的 浮 点 数 不 可 能 














完全 表示 ， 必 须 从 某 一 位 舍 去 。 而 且 ， 因 为 内 部 表示 是 二 进 制 ， 十 进 制 
中 看 起 来 能 除 尽 的 数 ， 往 往 在 二 进 制 中 是 循环 小 数 。 想 一 想 ， 十 进 制 的 
小 数 0.nln2... 表 示 的 是 图 9-19a 所 示 的 内 容 。 当 然 ， 二 进 制 的 小 数 
0.n1n2... 表 示 的 是 图 9-19b 所 示 的 内 容 。 

















图 9-19 十 进 制 与 二 进 制 的 内 部 表示 


比如 ， 为 了 用 二 进 制 表示 十 进 制 小 数 0.1， 就 写成 2 的 需 〈 因 为 小 于 

1， 所 以 窜 是 负数 ) 相 加 的 形式 (参见 图 9-20) 。 若 一 直 持 续 下 去 ， 用 
二 进 制 数 表示 的 十 进 制 数 0.1 就 成 了 0.00011001100110011001100... 这 
种 循环 小 数 。 在 有 效 数 字 的 范围 内 进行 含 和 信 ， 束 会 产生 舍 入 误 兰 。 














= 0.0625 -> 0.0625 


= 0.03125 -> 0.09375 


2-8 


= 0.00390625 -> 0.09765625 
-9 
2 


= 0.001953125 -> 0.099609375 























图 9-20 “将 十 进 制 小 数 变 为 二 进 制 的 步 又 
最 大 值 溢出 与 最 小 值 溢出 


当 运 算 结果 超出 了 浮 点 数 所 能 表示 的 数 的 范围 时 ， 就 会 发 生 最 大 值 溢出 
或 最 小 什 溢 出 。 超 出 最 大 值 时 称 为 最 大 什 溢 出 ， 超 出 最 小 值 时 称 为 最 小 
溢出 。 


双 精 度 的 最 大 值 定义 为 Float: :MAX ， 其 值 为 

1.79769313486232e+308。 如 果 硬 要 变 成 整数 ， 就 变 成 图 9-21 的 样子 。 

前 18 位 以 后 是 有 效 数 字 范 围 以 外 的 数 ， 没 有 意义 。 与 双 精 度 具 有 同样 
的 64 位 宽度 的 整数 所 能 表示 的 最 大 整数 9223372036854775807 相 比 ， 

可 以 知道 这 个 数 要 大 得 多 。 双 精度 所 能 表现 的 数 的 范围 如 此 宽广 ， 好 像 
没 问 题 ， 但 大 数 之 间 的 运算 ， 却 令 人 意外 地 很 容易 超出 范围 。 如 果 运 算 
结果 超越 这 个 范围 ， 就 成 为 无 限 大 。 


179769313486231576814527423731764356798676567525844996598917476863157260786 


图 9-21 相当 于 Float: :MAX 的 整数 值 ， 要 比 64 位 整数 值 大 很 多 


还 有 一 点 必须 注意 ， 双 精度 所 能 表示 的 数 的 范围 比 整数 大 很 多 ， 随 便 将 
人 
和 最 大 值 溢出 。 


同样 ， 双 精度 的 最 小 值 定 义 为 Float: :MIN ， 其 值 为 
2.2250738585072e-308。 如 果 运 算 结 果 (的 绝对 值 ) 比 这 个 数值 还 小 ， 
就 会 发 生 最 小 值 溢出 ， 结 果 被 置换 为 零 。 

非常 大 的 数 之 间或 非常 小 的 数 之 间 进 行 乘法 运算 的 时 候 ， 发 生 最 大 值 滋 
出 或 最 小 值 溢出 的 可 能 性 会 增高 。 数 值 差别 特别 大 的 数 之 间 也 应 避免 乘 
法 或 除法 运算 。 









































言 思 丢失 


与 64 位 整数 相 比 ， 双 精度 所 能 处 理 的 数 要 大 很 多 。 但 是 ， 双 精度 之 所 
以 比 64 位 信息 全 部 处 理 的 整数 所 能 处 理 的 范围 大 ， 是 因为 “ 双 精 度 ) 

数 与 数 之 间 存 在 不 能 表示 的 数 。 特 别 是 对 于 浮 点 数 ， 数 值 越 大 ， 能 够 表 
示 的 “分 解 能 ? 越 低 。 在 0 附近 ， 数 值 可 以 表示 得 很 细致 ， 离 0 越 远 ， 所 
能 表示 的 数 的 间 隅 越 大 。 


看 看 图 9-22。 特 别 大 的 浮 点 数 Float : :MAX 减 去 1.0， 结 果 与 原来 的 数 
Float: :MAX 没有 一 点 变化 。 











max = Float: :MAX 
max_minus 1 = max - 1.6 


p max == max_minus 1 # => true (!) 





图 9-22 浮 点 小 数 的 信息 丢失 从 原来 的 数 中 减 去 1.0， 大 小 不 变 


Float 的 == 方 法 返回 true ， 意 味 着 max 与 max_minus_1 在 内 部 表示 
上 完全 一 臻 。 也 就 是 说 ， 不 能 因为 要 处 理 的 数 很 大 ， 就 随 随便 便 用 双 精 
度数 代 蔡 整数 。 数 值 大 的 时 候 ， 本 来 应 该 执行 了 increment〔 值 增加 1) 
操作 ， 但 结果 并 没有 增加 。 两 个 浮 点 数 相 加 的 时 候 ， 两 个 数 的 指数 部 分 
要 一 致 。 计 算 1.0x104 + 2.0x10“ 的 时 候 ， 首 先 要 变 成 1.0x104 + 0.02x104 
的 形式 ， 然 后 再 计算 结果 。 


1.02 x 104 
= 10200 


如 宁 两 个 数 的 指数 部 分 差别 太 大 ， 指 数 部 分 变 得 一 致 时 ， 较 小 数 的 尾数 
部 分 会 变 得 太 小 ， 以 至 于 不 能 表示 ， 结 果 就 会 造成 信息 丢失 。 


为 了 避免 信息 丢失 ， 需 要 在 计算 顺序 方面 想 办 法 ， 最 基本 的 是 要 避免 特 
大 数 和 特 小 数 之 间 的 运算 。 比 如 对 很 多 很 小 的 数 进行 合计 ， 如 果 不 动脑 
筋 直 接 一 个 个 相 加 的 话 ， 合 计 值 会 越 来 越 大 ， 它 与 每 个 加 数 之 间 的 天 别 
也 会 越 来 越 大 。 也 惑 是 说 ， 会 太 生 信息 丢失 。 对 浮 点 数 进行 计算 ， 比 如 
要 对 分 成 很 多 组 的 茶 个 要 和 聚 进行 合计 时 ， 需 要 注意 信息 丢失 。 




















看 一 个 具体 例子 吧 。 图 9-23 所 示 的 程序 要 计算 4 个 值 的 和 : 
10000001.0、0.12345678、0.11111111 和 -10000000.0。 正 确 答案 是 
1.23456789， 单 纯 计算 时 ， 结 果 会 稍微 有 些 不 一 样 。 


100606061.6 
0.12345678 
0.11111111 
-10660666068 .0 


0.6 


十 十 十 
Il IN 1 


a 
b 
C 
d 


十 
ll 


p s # => 1.23456788994372 











图 9-23 容易 产生 误差 的 合计 程序 ， 运 算 的 顺序 有 问题 


这 是 因为 数值 差别 特别 大 的 数 a 和 b， 在 计算 时 发 生 了 信息 丢失 。 如 果 
将 计算 顺序 变 成 ad~>b-~>c， 结 果 就 变 成 1.23456789， 与 正确 值 一 
致 。 由 此 可 以 看 出 ， 与 乘法 和 除法 一 样 ， 两 个 〈 绝 对 值 ) 差别 极 大 的 数 
进行 加 法 运算 也 会 产生 误差 。 


对 数值 差别 很 大 的 多 个 数 进 行 合 计时 ， 如 果 像 图 9-24 所 示 的 那样 处 
理 ， 然 后 进行 误差 补正 ， 就 可 以 避免 误差 积累 。 

















ar = [ 
1666606061 .0， 
06.12345678， 
0.11111111， 
-1066606060.0 


] 
S 三 
ar.e 


Il Il ID 5 
NN 


[mi | 
+ 
了 


=> 1.23456788994372 


-= 
Ww 
十 
5 
并 


[L 
图 9-24 使 误差 变 小 的 合计 程序 

不 过 ， 从 图 9-24 的 实际 结果 看 ， 对 Ruby 所 采用 的 双 精 度 实 数 ， 重 复 次 

数 少 时 ， 这 种 方法 所 能 修正 的 误差 还 是 有 限 的 。 这 个 结果 很 遗憾 ， 修 正 

前 后 的 结果 都 完全 一 样 。 但 请 记 住 存在 这 么 一 种 方法 。 

位 数 脱 落 

数值 差别 极 大 的 两 个 数 进行 加 法 运算 时 ， 会 发 生 信息 丢失 。 数 值 几乎 相 

同 的 两 个 数 进行 减法 运算 时 ， 会 及 生 位 数 脱 落 。 数 值 相近 的 两 个 数 相 

减 ， 结 果 与 原来 值 相 比 非常 小 ， 有 效 位 数 会 变 少 ， 这 称 为 位 数 脱落 。 比 














如 在 图 9-25 的 例子 中 ， 有 效 数 字 是 6 位 的 两 个 数 相 减 ， 有 效 数字 脱落 
为 仅 有 2 位。 


1.23456x10-2 


- 1.23444x10-2 


= 1.2x10-6 











图 9-25 ”发 生 位 数 脱落 的 运算 例子 





截止 误差 

浮 点 数 的 大 小 和 精度 都 有 限度 ， 绝 对 无 法 表示 除 不 尽 的 无 理 数 。 到 某 一 
位 截止 ， 总 是 有 近似 ， 这 就 产生 了 误差 。 

9.2.9 ”误差 导致 的 严重 问题 

综 上 所 述 ， 浮 点 数 有 很 多 称 为 误差 的 陷阱 。 浮 点 数 的 误差 可 能 导致 比 想 
象 中 更 严重 的 问题 。 下 面 介绍 两 个 事例 8 。 

6 这 些 事 例 是 从 Francisco J. Santistive 先生 的 论文 Robust Geometric Computation(RGC),State of the 


Art 中 引用 的 。 翻 译 参考 了 Radium Software 
Development (http://www.radiumsoftware.com/0506.html ) 。 














事例 1 


1991 年 2 月 25 日 ， 海 湾 战 争 中 美 苗 的 爱国 者 导弹 拦截 伊拉克 军队 的 导 
弹 失 败 ， 导 弹 命中 美军 营地 ， 造 成 28 名 士兵 死亡 。 失 败 原 因 在 于 ， 从 
导弹 发 射 开 始 经 过 多 少时 间 的 计算 有 误差 。 


事例 2 


1996 年 6 月 4 日 ， 欧 洲 宇 航 局 (ESA) 发 射 的 无 人 阿 丽 亚 娜 5 型 火箭 ， 
发 射 后 仅 40 秒 就 爆炸 了 。 阿 丽 亚 娜 5 型 火箭 的 开发 ， 花 了 近 10 年 的 时 
间 ， 共 耗资 70 亿美 元 。 拱 载 在 火箭 上 的 堪 材 总 价值 近 5 亿美 元 。 事 故 
的 直接 原因 是 ， 在 惯性 基准 装置 (IRS) 内 的 软件 中 ， 将 用 于 表示 水 平 
方向 速度 的 64 位 浮 点 数 变换 成 了 16 位 整数 。 这 个 数值 超出 了 16 位 带 
符号 整数 所 能 表示 的 最 大 值 32768， 造 成 变换 失败 。 


这 种 严重 事故 虽然 很 少 发 生 ， 但 即使 错误 没 那么 严重 ， 也 请 不 要 忘 
浮 点 数 容易 引起 误差 。 








9.2.10 BigDecimal 是 什么 


浮 点 数 运算 的 陷阱 可 以 归结 为 两 个 原因 : 一 是 能 够 表示 的 精度 有 限 ， 二 
是 以 二 进 制 表 示 。 


这 些 代价 换 来 的 是 速度 上 的 优势 ， 所 以 这 需要 权衡 。 但 是 ， 也 有 比 起 运 
算 速 度 ， 更 需要 精度 的 时 候 。 有 不 少 语言 ， 为 了 提高 精度 ， 提 供 了 专用 
的 类 型 或 者 类 。 
标准 Ruby 中 提供 了 BigDecimal 类 ， 它 有 如 下 3 个 特征 : 

。 与 Bignum 一 样 ， 有 效 数 字 上 自动 扩展 ; 

。 以 十 进 制 计 算 ; 

。 以 C 语言 记述 ， 比 内 钥 的 浮 点 数 类 “(Float ) 要 慢 。 


看 一 个 使 用 BigDecimal 的 程序 吧 (参见 图 9-26) 。 














require 'bigdecimal’ 
a=BigDecimal: :new("0.123456789123456789") 


b=BigDecimal("123456.78912345678" ,40) 
c=a+b 

puts c # => 6.1234569125862459603456789E6 
puts c+4 # => 0.123460912586245963456789E6 























图 9-26 用 BigDecimal 运算 的 实例 


使 用 BigDecimal ， 需 要 加 载 bigdecimal 库 (第 一 行 )。 接 下 来 指定 
字符 串 生 成 BigDecimal 对 象 (第 2 行 ， 第 3 行 ) 。 第 3 行 的 第 2 个 参数 
指定 精度 〈《 有 效 数 字 的 十 进 制 位 数 ) 。 

运算 正常 进行 (第 4 行 )。 即 使 有 整数 等 其 他 类 型 的 数 混在 其 中 ， 也 会 
进行 适当 变换 后 再 运算 〈 第 6 行 ) 。 


最 初 设计 时 ， 会 党 得 怎么 是 以 字符 串 的 形式 给 出 初始 值 呢 ? 仔细 想 想 ， 
几乎 所 有 的 情况 ， 浮 点 数 都 是 以 十 进 制 的 字符 串 读 进来 的 《数据 文 件 
等 ) ， 因 此 非常 合理 。 














9.2.11 能够 表示 分 数 的 Rational 类 


除 不 尽 的 数 中 ， 有 很 多 能 够 以 分 数 表 示 的 数 〈 有 理 数 ) 。 能 够 直接 表示 
为 分 数 的 是 Rational 有 理 数 ) 类 (参见 图 9-27) 。 


puts 1.quo(4) # => 60.25 
require "rational" 

a = Rational(1,3) # => 正确 的 1/3 
puts a*3  # => 有 理 数 1/1 

















p a*3 
puts 1.quo(4)  # => 有 理 数 1/4 








图 9-27 使 用 Rational 类 的 例子 
图 9-27 的 quo 是 除法 运算 的 方法 ， 返 回 系 统 设置 下 能 够 得 到 的 最 佳 结 
果 。quo 方法 的 运算 结果 ， 在 加 载 Rational 类 时 是 Rational ， 未 加 
载 Rational 类 时 是 Float 。 


现在 ， 与 BigDecimal 一 样 ，Rational 类 位 于 标准 库 中 ， 而 使 其 像 





Bignum 那样 成 为 内 拒 类 的 答 试 也 在 进行 中 。 
没有 第 识 的 计算 机 


从 孩提 时 使 用 计算 器 的 时 候 ， 就 很 尺 寞 于 这 样 的 事实 : 1 除 以 3 得 到 
的 数 ， 连 加 3 次 却 不 是 1。 


知道 了 1 不 能 被 3 除 尽 ， 也 就 理解 了 从 某 种 程度 上 讲 这 也 是 没 办 法 的 
事 。 但 是 ，1 除 以 10 得 到 的 能 够 除 尽 的 数 ， 连 加 10 次 却 不 是 1， 这 
样 的 事 不 管 怎么 说 都 是 违反 常识 的 。 


虽然 计算 机 在 一 定 程度 上 反映 了 现实 世界 ， 但 是 实际 上 它 所 提供 的 项 
多 只 是 “ 约 影 ”， 经 铅 会 与 现实 世界 中 人 的 思考 发 生 俩 关 。 


计算 机 的 浮 点 数 就 是 特别 容易 违反 常识 的 领域 。 内 部 以 二 进 制 表示 数 
(0.1 在 二 进 制 中 是 除 不 尽 的 ，10 个 0.1 相 加 不 能 正好 得 到 1) ， 浮 
点 数 计 算 中 有 误差 ， 等 等 ， 很 多 地 方 应 当 注 意 。 结 果 就 成 了 计算 机 有 
计算 机 的 和 常识。 为 了 获得 计算 效率 ， 某 种 程度 上 也 是 没 办 法 的 事 。 


但 是 ， 作 为 高 级 程序 员 ， 应 该 有 更 高 的 目标 。 如 果 计 算 机 中 能 够 自然 
计算 的 整数 有 上 限 ， 丈 要 想 办 法 引入 多 倍 长 以 超越 界限 ， 为 了 能 除 

尽 ， 就 引入 有 理 数 等 。 如 何 权衡 计算 效率 以 达到 最 大 限度 的 平衡 技 

巧 ， 我 想 ， 这 种 技巧 正 是 区 分 普通 程序 员 与 一 流程 序 员 的 一 条 界线 

吧 。 


























第 10 章 融 速 执行 和 并 行 处 理 
10.1 让 程序 高 速 执 行 〈 前 篇 ) 


计算 机 的 处 理 速 度 正 在 以 怀 人 的 气势 提高 着 。 我 们 现在 使 用 的 计算 机 ， 
比 过 去 的 超级 计算 机 的 性 能 还 要 优良 ， 而 与 半 世 纪 前 问世 的 计算 机 相 
比 ， 性 能 提升 了 数 十 万 倍 。 


尽管 计算 机 已 如 此 高 速 ， 但 是 人 的 欲望 却 没有 止境 。 对 于 程序 员 来 说 ， 
程序 的 执行 速度 像 是 永久 的 课题 。 让 程序 高 速 执行 ， 有 时 甚至 会 让 人 觉 
得 , “那么 眉 张 是 要 去 哪儿 ? ” 


下 而 ， 讲 解 一 下 关于 高 速 执行 的 “秘密 *”?、“ 界 限 ” 以 及 “战略 ”。 
10.1.1 是 不 是 越 快 越 好 


考虑 程序 高 速 执 行 〈 性 能 优化 》 之 际 ， 要 先 仔细 想 想 。 程 序 高 速 执行 并 
不 是 一 直 所 期 户 的 。 与 其 他 各 种 各 样 的 因素 一 样 ， 性 外 0 
如 采 总 是 视 速 度 最 重要 ， 那么 就 总 得 准备 最 高 速 的 机 器 。 或 许 ， 还 需 
用 能 够 编写 最 蜗 速 程序 的 低级 语言 (比如 汇编 ) 来 写 程序 。 


但 是 ， 并 不 是 视 速 度 最 优先 就 一 定好 。 预 算 、 开 发 效率 和 开发 周期 等 制 
约 因 妹 也 都 在 性 能 权衡 范围 之 内 ， 在 提高 速度 方面 所 付出 的 代价 ， 应 该 
只 是 值得 的 那么 多 。 


比如 用 Ruby 写 一 个 程序 ， 处 理 100MB 的 数据 。 写 程序 花 了 30 分 钟 ， 
执行 花 了 2 小 时 ， 加 起 来 是 2 小 时 30 分 。 同 样 的 程序 想 要 在 30 分 钟 内 
执行 完 ， 用 C 语言 写 花 了 8 小 时 ， 2 执行 时 间 是 变 短 了 ， 但 加 
起 来 要 8 小 时 30 分 。 哪 一 个 合算 就 不 用 说 了 。 


但 如 果 这 个 程序 每 天 都 重复 执行 ， 每 天 都 要 耗费 2 小 时 等 结果 ， 这 束 完 
全 不 一 样 了 ， 用 C 语言 伦 8 小 时 来 开发 就 更 值得 了 。 


哆 里 跑 喧 再 说 一 过 ， 性 能 需要 权衡 。 通 第， 程序 能 在 必要 的 时 间 内 执行 
完毕 就 足够 了 。 我 不 认为 ， 一 味 退 求 融 速 束 而 什么 制约 因素 都 不 考虑 有 多 



































么 聪明 。 
10.1.2 高速 执行 的 乐趣 与 效率 


对 程序 员 来 说 ， 让 程序 高 速 执 行 本 身 是 一 种 乔 力 上 的 挑 成 。 找 出 慢 在 什 
么 地 方 ， 推 测 并 改善 问题 点 ， 程 序 执行 就 会 变 快 。 束 像 解 开 东 种 谜团 一 
样 ， 有 种 乐趣 。 改 进 的 结 琳 ， 可 以 体现 在 明确 的 执行 时 间 上 。 也 许可 以 
说 ， 性 能 优化 的 成 就 感 在 编程 中 让 人 觉得 最 充实 。 


这 倒 不 是 什么 坏事 ， 但 工作 中 光 有 成 就 感 还 是 不 够 的 。 假 设 我 的 笔记 本 
电脑 价值 20 万 日 元 ， 可 以 用 3 年， 换算 一 下 ， 平 均 每 秒 仅仅 0.00211 

日 元 。 我 的 一 小 时 工资 假设 是 760 日 元 (这 比 实际 值 要 低 很 多 ) 。 为 了 
让 程序 执行 快 10 秒 ， 我 花 了 一 小 时 修改 程序 。 要 赚 回 这 一 小 时 的 钱 ， 

那个 程序 非得 经 常 重复 执行 才 行 。 简单 计算 一 下 ， 要 执行 36 000 次 才 

能 赚 回 760 日 元 。 


暂且 不 谈 兴 趣 编 程 ， 工 作 中 在 进行 性 能 优化 之 前 ， 必 须 确认 是 否 真 有 必 
要 提高 速度 。 速 度 提 高 到 什么 程度 也 要 事先 估算 。 


10.1.3 ”以 数据 为 基础 作出 判断 


与 普遍 的 看 法 不 同 ， 编 程 是 文科 因素 占 很 大 比重 的 领域 。 而 性 能 优化 却 
切切 实 实 属于 理科 领域 。 性 能 优化 首先 要 考虑 客观 性 。 不 要 仅仅 抱怨 
慢 ， 而 要 测定 ， 用 数据 来 说 话 。 


标准 Linux 中 有 测定 执行 时 间 的 工具 ， 束 是 time 命令 。 0 
单 ， 命 令 执行 时 只 \ 要 在 开始 加 上 time 束 行 了 《参见 图 10-1 图 10-1 
的 格式 是 租 入 bash 的 time 命令 。 除 此 以 外 ，time 命令 还 ns 
本 ,格式 有 所 不 同 ， 但 即使 如 此 ， 大 多 都 包含 以 下 3 种 数值 。 


% time ruby sample/fact.rb 26 
243296026681766466060 



































om6 .605s 


om6 .605s 
om6 .001s 











图 10-1 time 命令 的 使 用 。 计 算 20 的 阶乘 。 使 用 的 程序 是 Ruby 附 禹 的 例 程 fact.rb 


。real 〈 总 执行 时 间 ) 。 程 序 从 开始 到 终止 的 执行 时 间 。 有 时 称 为 
total 或 者 elapsed 〈 经 过 时 间 ) 。 


e。User 〈 用 户 消 费时 间 ) 。 程 序 执 行 中 ， 用 户 所 消费 的 时 间 ， 即 程 
序 本 身 的 执行 时 间 。 


。 sys 《系统 消费 时 间 ) 。 程 序 执行 中 ， 系 统 调用 (system call) 所 
花费 的 时 间 ， 有 时 称 为 system 。 


程序 执行 得 快慢 ， 虽 然 可 以 用 real 来 判断 ， 但 通过 观察 user 与 sys 
还 是 系统 调用 太 多 而 导致 
下 时 了 > 慢 。 


也 许 你 没 怎么 意识 到 ， 系 统 调用 花费 的 代价 〈 时 间 ) 很 多 。 通 常 ， 程 序 
工作 的 用 户 空间 与 系统 调用 所 工作 的 内 核 空 间 是 完全 隅 离 的 ， 所 以 系统 
调用 需要 遵循 以 下 几 个 步骤 (1) 将 参数 从 用 户 空 间 复制 到 内 核 空 
间 ; (2) 执行 系统 调用 的 中 断 程 序 ，“〈3) 在 中 断 处 理 内 切换 到 内 核 空 
间 。 将 系统 调用 的 结果 人 返回 用 户 空 间 叉 需要 反方 向 执行 这 几 步 。 所 以 ， 
如 果 有 太 多 系统 调用 ， 就 会 引起 性 能 恶化 。 


10.1.4 改善 系统 调用 
现在 就 来 看 看 减少 系统 调用 的 次 数 ， 性 能 能 够 改善 到 什么 程度 吧 。 
图 10-2 所 示 是 将 当前 目录 中 的 文件 名 按照 文件 更 新 时 间 进 行 排序 的 程 


序 。 这 个 程序 在 500MHz 的 PentiumII 上 运行 。 排 序 对 象 是 有 4556 个 文 
件 的 目录 (ruby-core 的 邮件 履历 ) 。 结 果 如 下 。 




















Dir.entries(".").sort{|a,b| 
File.mtime(a) <=> 
File.mtime(b) 




















图 10-2 ”改进 前 程序 


real om4.624s 
user om3 .590s 


sys em0.850s 


程序 执行 用 了 4.6 秒 。 系 统 调用 的 时 间 为 0.850 秒 ， 约 占 总 时 间 的 
20%。 如 果 减 少 系统 调用 会 有 多 大 效果 呢 ? 


首先 ， 统 计 一 下 图 10-2 所 示 程 序 中 的 File.mtime() 调用 了 多 少 次 。 
在 sort 方法 中 ， 如 果 给 出 程序 块 {...} ， 为 了 排序 ， 每 次 比较 元 素 时 
都 要 调用 此 程序 块 。 所 以 ， 程 序 块 的 调用 次 数 比 元 素 个 数 要 多 很 多 。 稍 
微调 整 一 下 上 述 程序 ， 数 一 数 程序 块 被 调用 了 多 少 次 。 结 果 发 现 ， 比 较 
元 素 时 程序 块 执 行 了 78 270 次 。 为 了 比较 4556 个 元 素 ， 束 调用 了 程序 
块 78 270 次 ， 太 频繁 了 。 每 次 执行 此 程序 块 ， 都 要 调用 两 次 
File.mtime() ， 总 体 上 要 调用 156 540 次 。 


排序 处 理 任务 重 的 时 候 ，— 典 型 的 对 策 是 使 用 施 瓦 次 变换 (Schwarzian 
Transform) 。 这 是 Randal Schwarzl 设计 的 高 速 排 序 法 ， 先 计算 出 比较 
用 的 值 ， 避 免 比 较 计 算 重 复 进 行 。 施 瓦 次 变换 按 以 下 步骤 进行 。 


1 Randal Schwarz 也 是 Programming Perl 第 1 版 及 第 2 版 的 合 著 者 。 


1. 痛 完 ， 对 于 排 厅 对 象 的 各 个 元 素 ， 计 算 比 较 用 值 ， 与 元 素 本 身 配 
对 ， 组 成 一 个 数组 每 个 数组 元 素 古 一 个 二 元 数组 )。 


2. 将 此 数组 的 数组 按照 以 上 计算 的 比较 用 值 进行 比较 。 

3. 从 排序 后 的 数组 的 数组 中 取出 以 前 的 元 素 。 
上 述 步骤 用 程序 来 表示 如 图 10-3 所 示 。 稍 微 有 点 烦琐 。 事实 上 ， 在 
Ruby 中 ， 施 瓦 茨 变换 内 岗 在 了 sort_by 方法 中 。 用 sort_by ， 可 以 不 
后 的 事情 而 直接 使 用 施 瓦 茨 变换 。 使 用 sort_by 的 程 序 如 图 10- 
4 所 不 。 


Dir.entries("."). 
map{|x| [x,File.mtime(x)]}. 
sort{|a,b| a[1] <=> b[1]}. 

















map{|x| x[e]} 





图 10-3 使 用 施 瓦 次 变换 的 排序 程序 





Dir.entries(".").sort by{|al 
File.mtime(a) 





图 10-4 用 sort_by 方法 的 排序 程序 


与 最 初 的 程序 相 比 ， 既 变 得 短小 精 悍 ， 又 将 “使 用 此 值 进行 比较 ”的 意图 
明确 地 表达 出 来 。 快 点 执行 一 下 看 看 。 其 结果 如 下 。 
om6 .263s 


om6 .220s 
om6 .650s 








总 执行 时 间 从 4.624 秒 减 少 为 0.263 秒 ， 用 户 消费 时 间 从 3.590 秒 减 少 
为 0.220 秒 ， 系 统 时 间 从 0.850 秒 减 少 为 0.050 秒 ， 大 体 上 快 了 17 倍 。 
用 其 他 方法 测定 File.mtime() 的 调用 次 数 为 4556 次 ， 大 约 减少 为 最 


初 的 1/34。 

程序 变 得 更 短 更 易 懂 ， 而 且 执 行 速度 快 了 17 倍 ， 如 愿 以 偿 。 

施 瓦 次 变换 通过 事先 保存 反复 计算 的 值 来 削减 了 计算 量 。 这 是 一 种 称 为 
Memoize 的 高 速 搁 术 。 在 计算 中 ， 时 间 与 空间 通常 可 以 交换 。 保 存 计 算 
结果 要 占用 多 余 的 内 存 ， 作 为 回报 ， 能 够 节省 时 间 。Memoize 技术 在 各 
种 情况 下 都 可 以 用 于 提高 速度 。 

10.1.5 ”数据 可 靠 吗 


Sl eR 














首先 重要 的 是 ， 像 Linux 这 种 多 任务 操作 系统 ，CPU 始终 用 于 执行 多 个 
进程 。 所 以 ， 用 time 所 测 的 总 执行 时 间 会 受到 其 他 进程 的 影响 。 前 面 
的 例子 也 如 些 ， 用 户 消 费时 间 加 上 系统 消费 时 间 与 总 执行 时 间 不 一 致 。 





还 有 一 点 ， 就 是 误差 。bash 的 time 命令 表示 到 小 数 点 后 3 位 。 考 虑 到 
其 他 进程 的 影响 ， 操 作 系 统 的 时 钟 性 能 等 因素 ， 对 于 非 实 时 操作 系统 的 
Linux, 人 (1 塞 秒 ) ， 顶 多 也 就 小 数 点 后 2 位 
(1/100 秒 ) 。 


而 根据 操作 系统 的 缓存 与 换 页 的 不 同 ， 虽 执行 同样 的 命令 ， 但 执行 时 间 
有 可 能 极为 不 同 。 


考虑 到 这 些 情况 ， 在 测定 执行 速度 时 ， 有 必要 注意 以 下 条 件 。 
。 避免 测定 太 短 的 时 间 。 
。 反复 测定 。 


测定 太 短 的 时 间 (比如 1 秒 以 下 )， 误 差 太 大 ， 得 不 到 有 意义 的 结果 。 
男 外 ， 为 了 尽 可 能 排除 其 他 进程 以 及 缓存 与 换 页 的 影响 ， 反 复 测 定 要 达 
一 定 的 次 数 ， 去 掉 测 定 结果 中 性 能 极 差 的 几 个 ， 观 察 总 体 倾向 。 


10.1.6 ”只 需 改 善 瓶 狐 


性 能 优化 中 ,“ 因 为 是 排序 ， 所 以 惑 用 施 瓦 获 变 换 ” 这 种 条 件 反 射 式 的 对 
朱 并 非 总 管用 。 大 到 一 定 程度 的 程序 ， 间 题 是 不 是 真 的 在 于 排序 部 分 ， 
判断 起 来 并 不 容易 。 为 了 合理 提高 速度 ， 确 立 恰当 的 策略 是 很 必要 的 。 


为 此 ， 首 先 必 须 理 解 由 雷 托 法 则 。 由 雷 托 法 则 又 称 80/20 法 则 ， 即 80% 
的 数值 是 由 20% 的 构成 要 素 产生 的 。19 世纪 后 半 叶 ， 由 意大利 经 济 学 
家 Vilfredo Federico Damaso Pareto 发 现 而 得 名 。 由 帕 雷 托 法 则 可 知 ， 有 
209% 的 努力 可 以 得 到 巨大 回报 ， 而 有 80% 的 努力 得 不 到 多 少 回报 。 在 得 
不 到 回报 的 地 方 ， 不 管 怎么 努力 都 是 徒劳 的 。 


Donald Knuth 也 提 到 ， 通 常 一 半 以 上 的 执行 时 间 都 耗费 在 程序 中 不 到 
4% 的 部 分 。 


























2 Donald Knuth 是 计算 机 科学 家 。 他 开发 了 TeX， 撰 写 了 多 卷 本 《计算 机 程序 设计 艺术 》。 
这 些 耗 费 了 大 半 以 上 执行 时 间 的 部 分 称 为 瓶颈 。 对 瓶 贷 以 外 的 部 分 ， 不 
费 


管 倾注 多 少 劳 力 ， 都 是 在 浪费 。 对 于 只 耗费 总 执行 时 间 1% 的 部 分 ， 
了 半天 功夫 ， 即 使 处 理 时 间 缩 得了 50%， 总 执行 时 间 也 只 是 挥 短 了 











0.59%。0.5% 的 速度 改善 ， 恐 怕 还 抵 不 上 测定 误 莽 。 反 过 来 ， 耗 费 80% 
执行 时 间 的 部 分 ， 就 算 执 行 速度 只 提高 20%， 总 执行 时 间 就 会 提高 
16%。 


改 关 尖 天 在 性 能 优化 中 是 最 最 基本 的 。 不 先 确认 站 和 就 进行 高 速 化 处 理 
是 不 行 的 。 


确认 一 下 刚才 程序 的 瓶颈 在 哪儿 吧 。 判 定 瓶 开 ,可 以 用 profiler 这 一 
工具 。Ruby 在 执行 时 ， 解 释 器 中 附加 了 -rprofile 选项 ， 束 可 以 利用 
profiler 了。 假设 图 10-2 所 示 的 改进 前 程序 保存 在 文件 sort1.rb 
中 ， 像 下 面 这 样 执行 。 











% ruby -rprofile sort1.rb 





程序 的 执行 结果 请 参见 图 10-5， 各 栏 的 含义 请 参照 表 10-1。 


cumulative self self total 
seconds seconds calls ms/call ms/call name 
156546 9. 9 . File#mtime 
1 43830 . 115780 . Array#sort 
156541 。 Kernel.respond 
78270 6 5 Time#<=> 
Profiler .star 
Dir#each 
Dir#entries 
Dir#open 
Enumerable.to | 
115790 . #toplevel 


























图 10-5 profiler 的 执行 结果 ， 图 10-2 所 示 程 序 改进 前 的 测定 结果 


表 10-1 图 10-5 和 图 10-6 中 profiler 结 果 的 解释 











各 方法 的 执行 时 间 〈 秒 ) 


4 调用 次 数 〈 次 ) 








每 次 调用 所 消费 的 时 间 ( 品 秒 ) 

















第 5 栏 和 第 6 栏 或 许 有 些 难 懂 。 第 5 栏 不 包含 被 调用 的 方法 所 花费 的 时 


间 ， 而 第 6 栏 包含 这 个 时 间 。 





从 图 中 的 结果 来 看 ，File .mtime() 被 调用 156 540 次 ， 耗 费 了 总 执行 





时 间 的 41.1%。 这 个 方法 就 是 瓶 贷 。 


那么 ， 使 用 sort_by 会 怎样 呢 ? 对 于 图 10-4 中 使 用 sort_by 的 程 


序 ，profiler 的 执行 结果 如 图 10-6 所 示 。 


cumulative self self total 
seconds seconds calls ms/call ms/call 


14. 1 14360.60 25460. 
78270 .10 
4556 .28 
1 .60 
4557 


Oo 


OOOOOOoOOoPPPe 


4. 
2. 
6 . 
6 . 
6 . 
6 . 
6 . 
6 . 














图 10-6 profiler 的 执行 结果 ， 图 10-4 所 示 程 序 改进 


10.1.7 profiler 本 身 成 了 累 歼 








后 





name 
Enumerable.sort_by 
Time#<=> 

File#mtime 
Array#each 
Kernel.respond to? 
Profiler .start_ pro 
Dir#each 
Dir#entries 
Dir#open 

#toplevel 
Enumerable.to a 








的 测定 结果 


仔细 看 看 图 10-5 和 图 10-6 就 可 以 知道 ， 使 用 profiler 使 得 程序 执行 
时 则 大 幅 延 长 。 不 使 用 profiler 执行 时 ， 改 进 前 是 4.624 秒 ， 改 进 后 
是 0.263 秒 。 而 使 用 profiler 执行 时 ， 改 进 前 是 115.82 秒 ， 改 进 后 是 
25.45 秒 。 前 者 执行 时 间 延 长 至 原来 的 25 倍 ， 后 者 执行 时 间 则 是 原来 的 





97 倍 。 





从 profiler 所 引起 的 执行 速度 降低 来 看 ， 不 禁 让 人 想起 量子 力学 的 不 
确定 性 原理 。 不 确定 性 原理 是 指 测 定 行 为 本 里 对 被 测 对 象 产 生 了 影响 ， 
从 原理 上 可 以 说 不 可 能 正确 知道 对 象 的 状态 。 应 当 认 识 到 ， 从 
profiler 的 测定 结果 来 看 ， 只 能 知道 实际 状态 的 大 体 倾 同 。 


10.1.8 ”算法 与 数据 结构 

在 进行 性 能 优化 时 ， 按 下 述 步骤 去 改善 。 先 找 出 瓶颈 ， 明 确 知道 应 当 改 
善 哪 里 后 ， 再 考虑 算法 和 数据 结构 的 选择 。 去 除 多 余 的 赋值 ， 把 反复 计 
算 的 值 放 入 变量 中 ， 这 些 都 是 小 技巧 ， 性 能 项 多 改善 几 成 。 但 是 ， 知 能 
选用 一 个 好 的 算法 ， 有 时 会 改善 数 十 倍 ， 甚 至 上 百倍 。 


选择 合适 的 算法 ， 这 是 性 能 改善 的 第 一 考虑 因素 。 要 记 住 这 条 铁 则 。 

















10.1.9 ”理解 O 记 法 


如 何 从 效率 方面 判定 一 个 算法 的 好 坏 呢 ? 一 个 方法 就 是 O 记 法 。O 记 法 
表示 某 种 算法 对 于 变量 《比如 使 用 的 元 素 个 数 ) 如 何 变化 。 

比如 基本 排序 算法 的 冒 泡 排序 算法 ， 所 有 元 际 要 全 部 比较 。 也 就 是 比较 
次 数 与 元 素 个 数 〔( 通 常 以 n 来 表示 〉 的 平方 成 比例 。 所 以 ， 这 种 算法 的 
人 








表 10-2 各 种 算法 的 计算 量 


) 


里 说 O 记 法 相同 ， 但 两 种 算法 应 用 于 同一 数据 ， 结 果 不 一 定 束 相同 。 
有 时 会 出 现 明显 的 性 能 差异 。 








假设 菜 一 算法 的 计算 量 对 元 素 个 数 来 说 是 nm“ ， 另 一 算法 的 计算 量 是 
+3_n_ ， 随 着 数据 量 的 增加 ， 两 种 算法 的 表现 不 同 。 但 是 ，O 记 法 中 最 
大 项 (这 里 是 n“) 以 外 的 项 被 忽视 ， 这 两 个 算法 都 写成 O(n“)。 
请 注意 O 记 法 只 能 表示 随 着 元 系 个 数 的 增加 ， 该 算法 的 大 体 走向 。 


O 记 法 O (n 2 )， 表 示 数 据 量变 成 10 倍 的 时 候 ， 执 行 时 间 按 元 素 个 数 的 
2 次 方 比例 增长 这 一 趋势 。 并 不 意味 着 处 理 100 件 花 了 工 秒 ， 处 理 1000 
件 束 一 定 花 100 秒 。 


10.1.10 ”选择 算法 


现在 来 看 看 算法 的 选择 对 于 性 能 的 影响 。 图 10-7 中 的 程序 是 从 给 出 的 
两 个 数组 中 ， 求 出 两 方 都 含有 的 元 系 。 

















def intersect1(a，b) 


result = [] 
for x in a 
for y in b 
result.push(x) if x == y 
end 
end 
return result 
end 















































图 10-7 求 出 给 定 两 个 数组 中 共同 合 有 的 元 素 的 程序 ， 计 算 量 为 O nm) 


图 10-7 中 ， 使 用 二 重 循 环 对 两 个 数组 的 元 素 全 部 进行 比较 。 该 算法 的 
变量 是 作为 参数 传 过 来 的 两 个 数组 的 长 度 。 假 设 长 度 为 m、n， 则 该 算 
法 的 O 记 法 为 O (n:m)。 随 着 各 自 的 数组 变 大 ， 必 要 的 计算 量 与 两 个 数 
组 的 长 度 的 积 成 比例 。 


想 要 改善 这 个 算法 的 计算 量 ， 只 能 通过 改变 数据 结构 。 图 10-8 使 用 哈 
希 表 ， 计 算 量 才 得 以 改善 。 





def intersect2(a, b) 
hash = {} 
result = [] 
# 准备 哈 希 表 


for x in a 


hash[x] = true 








# 哈 希 表 中 有 的 话 ， 就 退 加 
for y in b 
result.push(y) if hash.key?(y) 
end 
return result 





end 





图 10-8 求 出 给 定 的 两 个 数组 中 共同 含有 的 元 素 的 程序 ， 使 用 哈 希 表 ， 计 算 量 限制 在 O (n+m) 


图 10-8 的 程序 中 ， 首 先 用 数组 元 系 构 造 了 一 个 哈 硕 表 。 哈 而 表 这 种 数 
据 结 构 ， 其 元 和 象 的 存在 检查 只 人 花费 常 数 时 间 ， 计 算 量 是 O (1)。 利 用 这 
一 点 ， 可 以 将 计算 量 削 减 为 O (mt+tn)。 为 了 哈 硕 表 的 实现 和 检查 ， 需 要 
对 两 个 数组 的 各 个 元 素 进行 循环 ， 这 对 计算 量 有 影响 。 相 对 于 图 10-7 
中 的 程序 ， 在 数组 变 得 很 大 的 时 候 ， 图 10-8 中 的 程序 所 需 的 处 理 时 间 


要 短 得 多 。 
10.1.11 调查 算法 的 性 能 
实际 比较 一 下 两 种 算法 的 性 能 。 可 以 准备 两 个 独立 的 程序 ， 然 后 用 


time 命令 。 这 里 使 用 Ruby 提供 的 benchmark (基准 ) 。 图 10-9 是 在 
进行 算法 性 能 比较 时 用 的 benchmark 程序 。 


require 'benchmark' 





























a 
b 


(1..16666).collect{frand(1666)} 
(1. .16666).collect{frand(1666)} 


Benchmark .bm do |x| 


x.report { intersect1(a,b)} 
x.report { intersect2(a,b)} 
end 














图 10-9 benchmark 程序 (基准 程序 ) 使 用 Ruby 标准 的 benchmark 库 


实际 上 ， 图 10-9 中 的 程序 要 加 上 图 10-7 和 图 10-8 中 程序 的 方法 定义 。 
程序 执行 结果 如 图 10-10 所 示 3 。 




















3 是 在 以 1.6GHz 运行 的 PentiumM，786M 内 存 的 Thinkpad X31 上 的 测试 结果 。OS 是 Linux 
2.6。 


user system total real 
38 .436666 86.166666 38 .536666 ( 45.371555 ) 
86.616666 8.666666 86.616666 ( 6.011314 ) 








图 10-10 ” benchmark 的 执行 结果 。 图 10-7 与 图 10-8 中 程序 的 调查 结果 


O (nm) 的 算法 需要 花费 38.5 秒 来 处 理 ， 与 此 相对 ，O 二 m) 的 算法 只 
需要 花费 0.01 秒 。 实 际 处 理 时 间 缩 短 至 1/3850。 三 和 干 倍 以 上 的 性 能 改 
善 ， 如 果 不 靠 改变 算法 ， 是 不 可 想象 的 。 














10.1.12 高速 执行 的 莫 户 


回顾 编程 历史 ， 高 速 执行 引起 了 各 种 各 样 的 翡 喜 剧 。 高 速 执行 的 基准 是 
程序 的 执行 速度 ， 但 执行 速度 依赖 于 各 种 各 样 的 因素 ， 知 随 随 便便 就 进 
Ce 就 可 能 会 落 入 陷阱 。 就 连 这 次 举 出 的 简单 的 例题 ， 也 有 多 
六 陷阱。 


徒劳 无 荔 的 努力 


比如 ， 在 高 速 执 行 上 花费 过 多 的 时 间 ， 不 知 不 觉 中 ， 很 容易 在 跟 瓶 颈 无 
关 的 地 方 花费 太 多 徒劳 无 益 的 努力 。 有 了 时候 ， 得 到 数 千 倍 性 能 改善 的 这 
种 成 就 感 ， 对 于 程序 员 而 言 ， 起 到 了 一 种 厅 药 似 的 作用 。 


改良 绊 住 了 手脚 

sort_by 所 依据 的 施 瓦 次 变换 ， 是 用 时 间 和 空间 的 交换 来 前 减 计 算 量 的 
方法 。sort_by 方法 与 sort 方法 相 比 ， 占 用 了 多 达 3 倍 以 上 的 内 存 。 
所 以 ， 模块 内 的 处 理 本 来 不 是 很 重 ， 如 果 一 味 地 占用 内 存 反而 可 能 会 变 


又 














性 能 优化 ， 光 有 理论 还 不 管用 。 手 头 上 有 许多 实验 结果 ， 至 少 现在 从 
Ruby 上 的 结果 来 看 ， 排 序 算法 要 想 超 过 sort_by 是 很 困难 的 。 我 想 大 
家 尽 可 以 放心 活用 sort_by ， 直 到 profiler 证 明 sort_by 是 瓶颈 。 


像 这 样 ， 如 果 不 实际 做 的 话 束 不 知道 到 底 什 么 是 正确 的 ， 这 也 可 以 说 是 





高 速 执 行 的 陷阱 之 一 。 
算法 选择 的 圈套 


刚才 ， 为 了 取得 两 个 数组 中 共同 的 元 素 ， 以 图 10-8 中 使 用 哈 希 表 的 程序 
代 蔡 了 图 10-7 中 使 用 二 重 循 环 的 程序 ， 实 现 了 多 达 3850 倍 的 提速 。 一 般 
来 说 ， 到 此 也 束 满 足 了 ， 但 仔细 检查 一 下 就 会 发 现 ， 在 数组 类 Array 
中 ， 已 经 提供 有 一 个 求 共 同 元 素 的 内 藤 方 法 &。Ruby 标准 库 的 方法 ， 很 
多 都 是 用 C 语言 实现 的 ， 使 用 有 &， 估 计 执 行 会 更 快 吧 。 实 际 运行 一 下 
benchmark ， 在 同样 条 件 下 ， 执 行 时 间 是 0.001529 秒 。 执 行 速度 是 图 
10-8 中 程序 的 7 倍 。 像 这 样 ， 即 便 沉 得 已 经 找到 了 最 好 的 算法 ， 也 可 能 
还 存在 更 好 的 实现 方法 。 千 万 不 可 粗心 大 意 。 

一 般 地 ， 尽 可 能 活用 Ruby 原装 的 内 般 方 法 ， 这 是 Ruby 中 实现 高 速 执 
行 的 守门 。Ruby 的 内 舰 方法 除了 算法 精炼 之 外 ， 几 乎 都 是 以 C 实现 
的 ， 因 此 ， 高 速 执 行 的 可 能 性 很 大 。 

但 是 ， 还 有 后 话 。 在 benchmark 程序 中 ， 已 经 知道 ， 图 10-8 中 的 程序 
比 图 10-7 的 快 ，& 方 法 比 图 10-8 中 的 快 。 但 这 3 个 程序 的 执行 ， 严 格 来 说 
并 不 一 样 。 在 数组 元 素 重 复 的 时 候 ， 执 行 也 是 不 一 样 的 。 


在 进行 性 能 优化 时 ， 不 改变 原来 程序 的 执行 是 一 个 大 原则 ， 像 这 样 在 特 
殊 情 况 下 执行 上 的 差异 ， 需 要 考虑 其 对 程序 的 目的 有 多 大 影响 。 


类 似 这 样 的 情况 ， 数 组 元 素 的 重复 有 没有 可 能 ， 或 者 是 元 素 重 复 时 执行 
上 的 差异 能 否 接受 ， 都 必须 要 充分 考虑 。 不 过 ， 既 然 有 几 万 倍 《〈 速 度 
上 ) 的 差异 ， 稍 微 有 点 〈 执 行 上 ) 的 差异 ， 还 是 可 以 接受 的 。 

10.1.13 ”性 能 优化 的 格言 

最 后 ， 介 绍 几 条 关于 性 能 优化 的 格言 。 第 1 条 也 是 最 有 名 的 。 

过 早 的 优化 是 万 恶 之 源 。 

还 有 一 句 也 说 的 是 这 个 意思 。 


优化 有 两 条 准则 。 























。 别 做 优化 。 
。 《 仅 适 用 于 专家 ) 移 不 要 做 优化 。 
这 算是 对 于 那些 热衷 于 做 高 速 优化 的 程序 员 的 警戒 格言 吧 。 


10.2 ”让 程序 高 速 执行 (后 篇 ) 


本 节 作 为 程序 高 速 优化 的 实践 篇 ， 对 具有 一 定 规模 的 具体 程序 ， 一 边 进 
行 阶 段 性 的 高 速 优化 ， 一 边 学 习 实践 技术 。 


例题 是 曼 德 勃 罗 集合 ! 的 计算 程序 (参见 图 10-11) 。 曼 德 勃 罗 集 合 是 
非常 美的 集合 ， 本 来 应 该 用 图 像 表 示 ” 。 但 使 用 GUI 以 后 ， 需 要 大 量 依 
赖 于 特定 GUI 库 (Graphics Routine) 的 代码 。 因 为 这 次 的 主题 是 高 速 
执行 ， 没 有 直接 关系 的 GUI 代码 尽 可 能 要 省 去 ， 所 以 用 字符 (英文 字 
母 ) 来 表现 图 形 。 


1 受 德 勃 罗 集合 是 指 复 平 面 上 满足 以 下 条 件 的 复 素数 的 集合 : 经 过 某 种 反复 迭代 运算 以 后 ， 其 
值 不 会 发 散 到 无 限 大 。 

































































2 用 GUI 编写 的 曼 德 勃 罗 集 合 描述 程序 ， 在 《面向 对 象 编程 语言 Ruby》 (Ascii 出 版 社 ，ISBN 
4756132545) 的 第 9 章 中 有 讲述 。 但 是 ， 现 在 广泛 使 用 的 Ruby/Gtk2 中 ， 由 于 API 变 了 ， 因 此 
不 能 再 运行 。 

改 为 以 字符 输出 ， 结 朱 减 少 了 整体 计算 量 ， 融 来 缩短 测定 时 间 的 附加 效 
果 。 进 行 高 速 优 化 需要 频繁 测定 ， 缩 短 每 次 的 执行 时 间 是 一 个 优点 。 
依存 于 特定 API 的 GUI 程序 ， 会 随 者 API 的 变更 而 变 得 个 再 好 用 ， 但 
以 字符 为 基础 的 程序 能 够 长 期 放心 使 用 。 


10.2.1 确认 程序 概要 


图 10-11 是 计算 曼 德 勃 罗 集 合 的 算法 代码 ， 比 GUI 版 要 简单 3 。GUI 版 
的 代码 有 102 行 。 


3 图 10-11 中 所 列举 的 曼 德 勃 罗 集合 计算 程序 是 基于 Steven N. Severinghaus 的 程序 
(http://severinghaus.org/projects/mandelbrot ) 。 
























































1 require 'complex' 
2 


3 def mandelbrot(cr, ci) 
4 limit=95 

5 iterations=6 

6 c=Complex.new(cr,ci) 
7 z=Complex.new(06,0) 


8 while iterations<limit and z.abs<16 


9 Z=Z*Z+C 

106 iterations+=1 
11 end 

12 return iterations 
13 end 

14 


15 def mandel calc(min r, min i, max _r, max_i, res) 
16 cur i = min i 
17 while cur i > max i 


18 print "|" 

19 cur_r = min_r 

20 while cur r < max_r 
21 ch = 127 - mandelbrot(cur r, cur_i) 
22 printf "%c",ch 

23 cuUr_r += res 

24 end 

25 print "|\n" 

26 cur i -= res 

27 end 

28 end 

29 


36 mandel calc(-2, 1, 1, -1, 60.064) 














图 10-11 曼 德 勃 罗 集 合 的 计算 程序 ， 文 件 名 为 mandell.rb。 未 进行 任何 优化 


程序 结构 很 简单 。 第 15 行 到 第 28 行 的 mandel_calc 方法 计算 指定 范 
围 的 曼 德 勃 罗 集合 。 这 次 为 了 看 起 来 美观 ， 在 第 30 行 指定 了 范围 ( 坐 
标 ) (-2，1) - (1，-1) ， 第 5 个 参数 是 分 辨 率 。 一 格 〈 一 个 字符 ) 相 
当 于 0.04。 当 这 个 值 变 大 时 ， 结 果 就 会 变 小 。 


内 部 调用 mandel_calc 方法 的 ， 是 第 3 行 到 第 13 行 的 mandelbrot 方 
法 。 只 计算 某 一 点 的 状态 。 


先 简单 执行 一 下 看 看 。 


% ruby mandel1.rb 





用 字符 表现 的 曼 德 动 罗 集 合 显示 出 来 了 (参见 图 10-12〉 。 可 以 看 出 用 
字符 表现 得 有 扩 膀 腾 的 图 形 。 
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图 10-12 ”图 10-11 中 程序 的 执行 结果 ， 用 字符 表现 的 曼 德 勃 多 集合 


% time ruby mandel1.rb > /dev/null 


real om2 .601s 


user om2 .432s 
sys 6m6 .0604s 





这 是 在 我 的 环境 (Ruby 1.8.6，Linux 2.6.24，Pentium M 1.6GHz) 下 的 
执行 结 末 。 为 了 避免 其 他 进程 引起 的 测定 误差， 我 反复 测定 了 10 次 ， 
采用 了 最 好 的 成 绩 。 这 次 想 测定 的 只 是 计算 时 间 ， 和 输出 所 用 的 时 间 反 倒 
成 了 标 奖 ， 所 以 将 输出 重 定向 到 /dev/null 中 扔 掉 。 


10.2.2 ”发 现 瓶 颈 


性 能 优化 ， 首 先 找 出 瓶颈 《问题 所 在 ) 是 一 条 铁 则 。 如 前 所 述 ， 对 于 发 
现 瓶 颈 ，profiler 是 一 个 有 用 的 工具 。 使 用 profiler 测定 一 下 吧 。 





% time ruby -r profile mandel1.rb 


real 4m4 .8725s 
user 3m36 .626s 
sys em4 .428s 





profiler 的 结果 如 图 10-13 所 示 。 从 profiler 的 结果 来 看 ， 耗 费时 
间 (self seconds) 最 多 的 3 个 方法 如 下 所 示 〈( 插 写 内 是 调用 次 数 ) 。 





% cumulative self self total 
time seconds seconds calls ms/call ms/call name 

26.85 45 .65 45.65 229539 0.20 60.57 Object#Complex 
19.22 86.56 41.51 237839 0.18 0.23 Complex#initialize 
11.26 1106.75 24.19 114769 0.21 60.89 Complex#* 

7.68 127.34 16.59 3756 4.42 57.29 Object#mandelbrot 
7.22 142.93 15.59 1181444 6.61 6.61 Kernel.kind of? 
6.88 157.79 14.86 114769 0.13 0.73 Complex#+ 

4.39 167.27 9.48 459678 8.02 6.62 Numeric#imag 

4.31 176.58 9.31 459678 8.02 6.62 Numeric#real 

3.28 183.67 7.69 237639 8.03 0.26 Class#new 

2.40 188.86 5.19 443822 8.61 868.61 Float#* 

2.12 193.44 4.58 117551 6.04 86.65 Complex#abs 

2.604 197.85 4.41 355614 6.61 0.601 Fixnum#+ 

2.66 2862.16 4.31 336751 6.61 8.61 Float#- 

1.97 ”266.41 4.25 336751 6.61 8.61 Float#+ 

1.47 ”269.58 3.17 ”225769 0.61 8.61 Float#== 

0.85 211.41 1.83 117551 8.02 6.62 Math.hypot 

6.74 213.61 1.66 121361 8.61 8.61 Float#«< 

6.67 214.46 1.45 118569 6.61 8.61 Fixnum#< 

6.25 215.61 6.55 1 556.66 216626.66 Object#mandel calc 
6.19 215.43 0.42 3756 6.11 6.14 Kernel.printf 

0.12 215.69 0.26 15254 8.02 8.62 Fixnum#* 

6.67 215.85 6.16 11357 8.61 6.61 Fixnum#- 

6.64 215.94 8.69 3856 8.02 6.62 IO#write 

6.64 216.62 8.68 3836 8.02 6.62 Fixnum#== 

60.60 216.602 6.66 37 0.66 6.66 Kernel.singleton metho 
6.60 216.02 0.60 34 0.60 0.60 Module#module function 
60.60 216.02 0.60 1 0.60 60.60 Module#method undefine 
6.66 216.62 06.66 1 06.66 6.66 Class#inherited 
6.66 216.62 06.66 2 06.66 6.66 Module#attr 

0.00 216 .02 0.60 1 60.60 60.60 Kernel.require 

6.66 216.62 06.66 1 0.60 60.60 Fixnum#> 

6.66 216.62 0.66 71 06.66 6.66 Module#method added 
6.60 216.62 0.66 56 06.66 0.60 Float#> 

606.60 216.62 06.66 166 06.66 6.66 Kernel.print 

6.66 216.62 06.66 1 60.60 216626.66 #toplevel 


| 


图 10-13 图 10-11 中 代码 的 profiler 结果 








(1 位，Object#Complex (229 539 次 ) 
(2 位 ) Complex#initialize (237 039 次 ) 
(3 位 ) Complex#x# (114 769 次 ) 


Complex() 是 复 素 数 生成 方法 ，Complex#initialize 是 复 素 数 的 初 
始 化 方法 。 这 些 都 是 被 mandelbrot 方法 调用 的 (而 且 mandelbrot 方 
法 本 身 也 是 第 4 位 ) ，mandelbrot 方法 就 是 瓶颈 这 一 点 应 该 不 会 错 。 
因此 ， 高 速 优 化 就 以 mandelbrot 方法 为 对 象 吧 。 


10.2.3 ”使 用 更 好 的 profiler 


话题 稍微 倪 开 一 下 ， 对 profiler 本 身 的 执行 时 间 有 些 在 意 。 不 是 慢 一 
点 半点 。Ruby 的 profiler 是 以 Ruby 本 身 来 写 的 ， 有 人 说 不 怎么 快 。 
事实 上 大 家 都 觉得 好 像 太 慢 了 。 


原始 的 曼 德 勃 罗 集 合计 算 程 序 ， 在 不 使 用 profiler 执行 时 ， 需 要 2.6 
秒 ; 在 使 用 profiler 执行 时 ， 需 要 4 分 零 5 秒 。 执 行 时间 变 成 了 不 使 
用 profiler 执行 时 的 94 倍 。 


实际 上 ， 虽 然 不 是 标准 提供 ， 但 是 有 更 好 的 profiler ， 就 是 称 为 
ruby-prof 的 程序 4 。 通 过 使 用 扩展 库 ， 可 以 实现 高 速 profile 。 


4ruby-prof 可 以 从 以 下 的 URL 得 到 (http:/rubyforge.org/projects/ruby-prof ) 。 开 发 者 是 前 田 
修 武 。 














那么 ， 来 试 试 ruby-prof 吧 。 为 了 用 ruby-prof 进行 profile ， 用 
ruby-prof 命令 取代 ruby 命令 来 执行 。time 命令 就 不 需要 了 。 





% ruby-prof mandel1.rb 


real om12 .047s 
user om6 .336s 
sys em4 .6064s 


LU | 


ruby-prof 有 很 多 优点 ， 其 中 最 重要 的 是 它 能 够 高 速 执行 ， 仅 仅 花 12 
秒 。 跟 什么 都 不 做 (2.6 秒 ， 不 用 任何 profiler ) 比 起 来 虽然 有 些 
慢 ， 但 跟 标 准 profiler 的 4 分 多 钟 比 起 来 ， 还 是 要 快 得 多 。 


10.2.4 ”高 速 优化 之 一 : 削减 对 象 


知道 了 问题 所 在 ， 下 一 步 是 程序 的 高 速 化 。 从 刚才 profiler 的 结果 来 
看 ，mandelbrot 方法 占用 了 多 半 的 执行 时 间 ， 而 且 复 素数 的 计算 成 为 
瓶颈 。 这 里 ， 就 考虑 除去 瓶颈 一 复 素数 的 计算 。 复 素数 以 实数 和 虚数 
和 的 形式 来 表示 。 所 以 ， 需 要 特别 的 运算 。 


mandelbrot 方法 的 核心 是 复 素 数 的 计算 z = z*z + c 。 复 素数 的 加 
法 、 乘 法 和 绝对 值 abs 定义 于 图 10-14。 使 用 这 个 算式 ， 如 果 能 独立 计 
算 实 部 和 虚 部 的 话 ， 那 么 不 用 Complex 类 也 行 。 


class Complex 
def +(other) 
return Complex.new(@re+tother.re,Q@im+rother.im) 
end 








def *(other) 


return Complex.new(@re*other.re-Q@im*other.im,@re*other.im+@im*other.re) 
end 


def abs 
return Math.sqrt(@re**2+@im**2) 
end 
end 











图 10-14” 复 素数 类 的 加 法 、 乘 法 和 绝对 值 的 定义 内 容 


避 开 了 Complex 类 的 生成 ， 最 花 时 间 的 3 个 方法 就 可 以 前 减 了 ， 执 行 
速度 的 改善 应 该 是 有 希望 的 。 


图 10-15 所 示 的 是 根据 这 个 方针 改善 后 的 mandelbrot 方法 。 














def mandelbrot(cr, ci) 
limit=95 
iterations=6 
zr = zi = 60.6 


while iterations<limit and Math.sqrt(zr**2+zi**2)<16 
zr, Zi = zr*zr-zi*zi+tcr,zr*zi+zi*zr+ci 
iterations+=1 
end 
return iterations 
end 











图 10-15 mandelbrot 方法 (改善 版 1) 


最 初 的 mandell.rb 的 mandelbrot 方法 被 置换 以 后 ， 请 以 文件 名 
mandel2.rb 来 保存 。 因 为 mandel2.rb 不 含 复 素数 计算 , “require 
'complex' ”这 一 行 可 以 删除 。 


执行 一 下 mandel2.rb 吧 。 
% time ruby mandel2.rb > /dev/null 


real om6 .517s 
user om6 .512s 


sys em .6060s 











Cr 0.5 秒 。 与 之 前 的 版 本 相 比 ， 快 了 5 倍 之 多 ， 真 了 不 
已 ! 





那么 ， 再 回 过 头 来 考察 一 下 mandel2.tb 执行 时 间 变 短 的 原因 吧 。 首 先 ， 
最 大 的 原因 是 不 再 使 用 复 素 数 。 这 样 也 就 避免 了 复 素 数 的 生成 所 耗费 的 
时 间 。 实 际 上 占用 执行 时 间 40% 的 部 分 被 前 减 挥 了 。 


由 此 可 以 得 出 以 下 的 Ruby 高 速 优化 的 规则 1。 

规则 1: 减少 对 象 

使 用 高 级 面 问 对 象 语言 却 不 得 使 用 对 象 ， 这 条 件 太 奇 刻 了 了。 但 对 象 的 生 
成 要 花费 一 定 的 成 本 《时 间 ) ， 对 于 那些 频繁 地 生成 以 至 于 影响 到 执行 
速度 的 对 象 ， 有 时 需要 采取 些 对 策 。mandelbrot 程序 中 ， 需 要 大 量 生 
成 复 素 数 ， 以 至 于 影响 到 执行 速度 ， 愉 好 是 需要 采取 措施 的 地 方 。 
减少 对 象 ， 除 了 会 降低 生成 成 本 以 外 ， 还 有 别 的 好 处 。 








Ruby 中 不 再 使 用 的 对 象 ， 由 被 称 作 垃 圾 收集 (garbage collection ) 的 处 
理 自动 进行 回收 。 垃 圾 收集 处 理 需要 检查 对 象 的 引用 关系 ， 任 何 地 方 都 
不 再 引用 的 对 象 会 被 判定 为 已 经 不 再 使 用 了 。 所 以 ， 当 对 象 的 数量 很 多 
的 时 候 ， 这 种 “是 不 是 已 经 不 再 使 用 了 ”的 判断 成 本 就 要 增 

大 。profiler 不 检查 垃圾 收集 处 理 ， 这 样 就 容易 看 漏 ， 当 怀疑 对 象 是 
不 是 太 多 了 的 时 候 ， 有 必要 检查 一 下 。 


但 仅仅 是 不 再 生成 复 素 数 ， 只 能 达成 40% 的 时 间 削 减 ， 并 不 能 说 明 
mandel2.rb 为 何 快 了 5 倍 。 


图 10-16 显示 的 是 速度 改善 后 的 mandel2.rb 的 profile 结果 。 看 了 这 个 
图 ， 首 先 注意 到 的 是 ， 行 数 少 了 很 多 。 原 始 的 mandell.rb 有 35 行 ， 与 
此 相对 ，mandel2.rb 只 有 18 行 。 这 是 由 于 避 开 了 complex 库 ， 调 用 方 
法 《的 种 类 ) 也 变 少 了 的 原因 。 


cumulative self self total 
seconds seconds calls ms/call ms/call name 
31. 3756 8 . 13 . Object#mandelbrot 
4590676 0 . Float#* 
465558 Float#+ 
2351062 Float#** 
1213061 Float#« 
114818 Float#- 
117551 Math. sqrt 
118569 Fixnum#< 
114819 Fixnum#+ 
1 Object#mandel] calc 
3756 Kernel.printf 
3850 IO#write 
3751 Fixnum#- 
2 Module#method adde 
166 Kernel.print 
50 Float#> 
1 Fixnum#> 
1 #toplevel 
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图 10-16 ”图 10-15 中 改善 后 的 代码 的 profiler 结果 ， 与 图 10-13 比 起 来 ， 方 法 数 减 少 了 


数 一 数 实际 的 方法 调用 次 数 吧 。profile 结果 第 4 列 的 合计 ( 减 去 top 
level 的 1) 是 方法 调用 的 总 次 数 。mandel1l.rb 中 是 5 248 464 次 ， 
mandel2.rb 中 是 1762 049 次 ， 实 际 上 后 者 是 前 者 的 113。 由 此 可 以 得 出 


Ruby 高 速 优化 的 规则 2。 
规则 2: 减少 方法 调用 


方法 调用 中 ， 存 在 多 态 性 这 一 面 问 对 象 的 本 质 特 征 ， 先 要 评价 参数 ， 判 
定 对 象 种 类 ， 然 后 选 出 一 个 合适 的 方法 ， 再 将 控制 移交 给 该 方法 ， 这 是 
一 个 缓慢 的 处 理 过 程 。 


为 了 避 开 方法 调用 ， 尽 可 能 不 用 Ruby 中 实现 的 方法 。Ruby 中 实现 的 方 
法 ， 几 乎 所 有 的 情况 都 是 通过 调用 其 他 方法 来 实现 的 。 也 惑 是 说 ， 只 要 
使 用 了 一 次 Ruby 中 实现 的 方法 ， 就 会 有 多 余 的 方法 调用 发 生 。 


10.2.5 ”高 速 优化 之 三 : 利用 立即 值 


Ruby 中 有 几 类 对 象 并 不 实际 分 配 内 存 ， 而 是 用 引用 (reference〉 本 号 来 
表示 ， 这 种 值 称 为 立即 值 (immediate value) 。 


现在 的 Ruby 中 ， 小 的 整数 (+2^30 以 内 ) 、 真 假 值 、nil 和 符号 名 等 都 


是 并 即 值 。 


立即 值 既然 不 生成 对 象 ， 就 不 用 担心 对 象 的 生成 成 本 ， 而 且 也 不 用 垃圾 
收集 处 理 ， 所 以 它 具 有 特别 理想 的 特性 。 


曼 德 台 罗 集合 的 计算 是 浮 点 小 数 的 计算 ， 为 了 将 其 整数 化 ， 需 要 将 
其 “ 抬 高 "， 变 成 固定 小 数 点 数 。 固 定 小 数 点 以 后 的 mandelbrot 方法 如 
图 10-17 所 示 。 


def mandelbrot(c r, c i) 
limit=95 
iterations=6 
cr (cr * 1600).to i 
ci (c i * 160).to i 
zr = zi=0 
while iterations<limit and Math.sqrt(zr*zr+zi*zi)<1660 











zr, Zi = (zr*zr-zi*zi)/160+tcr, (zr*zi+zi*zr)/160+ci 
iterations+=1 
end 
return iterations 
end 











图 10-17 mandelbrot 方法 (改善 版 2) 


这 里 为 确保 小 数 点 以 下 两 位 ， 将 值 放 大 100 倍 。 在 乘法 运算 后 ， 因 为 结 
果 被 重复 放大 了 ， 所 以 除 以 100。 


mandel2.rb 中 mandelbrot 方法 被 替换 后 ， 请 保存 为 mandel3.rb。 


% time ruby mandel3.rb > /dev/null 
real 6m6 .467s 
mg .464s 


om6 .0604s 





与 mande12.rb 相 比 ， 性 能 仅 改善 了 一 点 点 。 所 以 ， 说 老实 话 ， 改 善 没 
有 期 望 的 那么 大 。 在 mandelbrot 程序 中 ， 生 成 的 对 象 数 比 想象 得 少 ， 垃 
圾 收集 的 负担 也 没 那 么 大 。 固 定 小 数 点 所 需 的 “ 抬 高 ”运算 增加 了 方法 调 
用 ， 这 抵消 了 利用 立即 值 帝 来 的 好 处 。 如 果 在 分 辨 率 更 高 一 点 的 计算 
中 ， 垃 圾 收集 的 负担 会 更 高 一 些 ， 或 许 会 得 到 更 大 的 差异 。 


固定 小 数 点 的 计算 也 有 副作用 。 仔 细 观 察 mande13.rb 的 输出 ， 可 以 看 
ee 差异 。 这 是 因为 计算 到 小 数 点 以 下 两 位 ， 计 算 结 
果 有 偏 开 。 


10.2.6 ”高 速 优 化 之 三 : 利用 C 语 言 

因为 Ruby 是 解释 性 语言 ， 单 纯 计 算 的 循环 不 是 很 快 。 如 果 将 处 理 交 给 

编译 器 ， 就 可 以 变 得 很 快 。 根 据 profile 的 测定 结果 ， 如 果 找 到 了 瓶颈 所 
在 ， 就 可 以 将 该 部 分 用 C 语言 来 实现 ， 这 也 是 一 个 有 效 的 战略 。 

与 其 他 语言 比较 起 来 ， 用 C 语言 来 编写 Ruby 扩展 库 相 当 人 简单 。 

这 次 没有 详细 说 明 扩展 库 是 有 原因 的 ， 因 为 有 更 好 的 方法 。 

RubyInline 就 是 更 好 的 方法 。 简 单 地 说 ，RubyImline 就 是 Ruby 程序 中 能 
人 够 直接 磐 入 的 C 语言 代码 。 初 次 执行 时 ，C 语言 代码 被 自动 编译 ， 第 2 


展 库 。 或 许 ， 看 看 实际 的 代码 更 容 
异 。 


























安装 RubyInline 后 ， 请 在 程序 先头 加 上 require "inline" 。 
于 是 ， 将 mandelbrot 方法 换 成 图 10-18 中 的 代码 。 


class Object 
inline do |builder| 
builder.include "<math.h>" 
builder.c " 
int mandelbrot(double cr, double ci)t{ 
long limit = 95; 
long iter = 6; 
double zr = 60, zi = 6,zzr, Zz2i; 
while (iter < limit && sqrt(zr*zr+zi*zi) < 16){ 
zzr zr*zr-zi*zit+cr; 
zzi zr*zi+zi*zr+ci; 
zr = zzr; zi = zzi; 
iter++; 
} 


return iter; 




















图 10-18 mandelbrot 方法 (RubyInline 用 ) 





图 10-18 中 ， 用 builder.include 声明 必要 的 包含 文件 ， 用 builder.c 
定义 Object 的 方法 。 方 法 本 身 用 C 语言 编写 ， 人 处 理 内 容 与 mandel2.rb 
相同 。 


置换 后 的 文件 保存 为 mandel4. 中 ， 然 后 执行 。 第 1 次 执行 需要 在 内 部 进 
行 编 详 ， 会 稍微 多 伦 些 时 间 ， 第 2 次 以 后 ， 编 详 结 末 已 经 保存 下 来 ， 这 
人 
果 如 下 。 


% time ruby mandel4.rb > 
/dev/null 

real em0 .983s 

user om6 .676s 











sys em .008s 





0.083 秒 ! 与 原始 程序 相 比 快 了 31 倍 ， 与 使 用 同一 算法 进行 高 速 化 的 
mandel2.rb 相 比 也 快 了 6 倍 以 上 。 


与 RubyInline 制作 扩展 库 的 方案 比 起 来 ， 这 要 简单 易 行 得 多 ， 是 一 种 更 
优秀 的 提速 方案 。 但 是 ， 如 果 没 有 编译 环境 ， 当 然 就 不 会 运行 ， 所 以 需 
要 稍稍 选择 一 下 执行 环境 。 而 且 ， 如 果 是 Linuxz， 那 么 很 少 会 出 问题 。 
如 果 是 Windows， 则 只 能 在 Cygwin 环境 下 运行 


10.2.7 ”高 速 优化 之 四 : 采 适 的 数据 结构 


这 是 不 是 到 了 极限 了 呢 ? 已 经 用 C 语言 实现 了 ,或许 更 进一步 的 高 速 化 
就 很 难 了 。 

但 仔细 看 看 这 个 程序 ， 是 不 是 真 的 有 必要 对 mandelbrot 方法 进行 如 此 
频繁 (3650 次 ) 的 调用 呢 ? 如 果 能 够 削减 调用 次 数 ， 或 许 就 可 以 更 高 
速 地 处 理 。 


为 此 ， 好 像 需 要 变更 数据 结构 。 图 10-19 中 ， 用 了 表示 均 质 数值 的 数组 


NArray 类 。 





























require 'narray' 


def mandel calc(min r, min i, max r, max_i, res) 
Integer((max i - min i) / res).abs 
Integer((max_r - min r) / res).abs 


c = (NArray.scomplex(w,1).indgen!/25+min _r) + 
(NArray.scomplex(1,h).indgen!/25+min i)*1.im 
NArray.scomplex(w,1)+NArray.scomplex(w,1)*1.im 
NArray.sint(w,h) 

idx = NArray.int(w,h).indgen! 


limit=95 
i=0 


while i<limit 
Z = 2Z**2+C 
idx t,idx f = (z.abs>16) .where2 
a[idx[idx 七 ]] = 
break if idx f.size==0 
idx = idx[idx _f] 
z = z[idx_f] 
c = clidx _f] 


i+=1 

end 

h.times do |y| 
print "|" 
w.times do |x| 

printf "%c",126 - a[x,y] 

end 
print "|\n" 

end 

end 


mandel calc(-2 ，-1, 1, 1,， 6.64) 


























图 10-19 使 用 NArray 的 曼 德 勃 罗 集合 的 计算 
将 这 个 程序 保存 为 mand- el5. 中 ， 并 执行 一 下 。 


% time ruby mandel5.rb > /dev/null 
real “6m6.656s 
user mo .048s 


sys mo .008s 








比 使 用 RubyInline 的 程序 执行 时 间 更 短 ， 完 全 是 一 皮 眼 的 工夫 。 改 变数 
据 结构 和 选择 计算 方法 ， 能 取得 很 大 的 效果 。 


但 是 ，mandel5.tb 的 执行 结果 ， 细 微 部 分 与 曼 德 勃 罗 集合 有 很 大 的 差 
异 。 本 来 想 与 其 他 的 程序 得 出 同样 的 结果 ， 但 NArray 的 使 用 方法 弄 得 
还 不 是 很 懂 ， 时 间 就 过 去 了 。 
10.2.8 全 部 以 C 语 言 计 算 


作为 参考 ， 试 一 试 全 部 以 C 语言 实现 会 高 速 到 什么 程度 吧 。 算 法 已 经 知 
道 了 ， 只 是 机 械 地 换 为 C 语言 。 结 果 如 下 所 示 。 





% time a.out > /dev/null 
real em0 .607s 
user om6 .8604s 
sys em0 .004s 


| | 


确实 很 快 。 像 这 种 单纯 的 计算 ， 怎 么 也 敌 不 过 C 语言 。 但 这 个 C 程序 
之 所 以 能 够 很 简单 地 开发 出 来 〈5 分 钟 左 右 的 工作 ) ， 是 因为 之 前 已 经 
存在 能 够 通畅 运行 的 Ruby 程序 。 在 开发 能 够 高 速 运行 的 程序 的 时 候 ， 
首先 用 Ruby 写 一 段 能 够 运行 的 代码 ， 然 后 在 正式 环境 中 用 C、C++ 或 
Java 等 重 写 ， 这 也 是 一 个 可 行 的 途径 吧 。 


10.2.9 ”还 存在 其 他 技巧 


这 次 没有 尝试 的 ， 还 有 “以 空间 换 时 间 ” 的 技巧 。 也 就 是 将 计算 的 中 途 结 
条 保 存 起 来 ， 避 免 多 次 重复 同样 的 处 理 ， 结 果 让 处 理 能 够 在 短 时 间 内 完 
成 。 在 曼 德 勃 罗 集合 的 计算 中 虽然 不 适用 ， 但 在 反复 进行 同样 计算 的 处 
理 中 ， 却 能 够 发 挥 极 大 的 作用 。 


米 米 米 











以 上 学 习 了 性 能 优化 的 具体 技巧 。 将 这 些 撤 巧 再 度 总 结 一 下 吧 。 
。 根据 训 定 ， 发 现 瓶 颈 。 
。 减少 对 象 。 
。 减少 方法 调用 。 
。 避 开 用 Ruby 实现 的 方法 。 
。 使 用 立即 值 。 
。 浇 贷 部 分 用 C 语言 记述 。 
。 以 空间 换 时 间 。 


如 末 你 正在 因为 自己 的 程序 太 慢 而 震 恼 ， 这 些 技术 可 能 会 起 些 作 用 。 但 
也 不 要 起 记性 能 优化 的 格言 一 一 过 早 的 优化 是 万 恶 之 源 。 





10.3 “并行 编程 
在 Linux、Windows 等 现代 操作 系统 中 ， 多 个 程序 能 够 同时 运行 。 比 
如 ， 可 以 一 边 浏览 网 页 ， 一 边 在 后 台 刻 录 DVD-R。 


计算 机 虽然 只 有 一 个 CPU， 但 操作 系统 能 够 将 程序 的 执行 单位 细 化 ， 然 
后 分 开 执 行 ， 从 而 实现 伪 并 行 执行 ! 。 最 近 ， 有 称 为 多 核 的 ， 即 一 台 机 
器 上 有 多 个 CPU (CPU 核心 ) 同时 运行 。 


1 这 种 伪 并 行 执行 称 为 并 发 〈concurrent) 。 使 用 多 个 CPU 真 的 同时 执行 称 为 并 行 parallel) 。 
10.3.1 使 用 线程 的 理由 


多 个 程序 同时 运行 的 时 候 ， 操 作 系 统 以 进程 为 单位 同时 运行 。 若 各 个 
进程 完全 独立 ， 也 就 无 二 话 可 说 。 但 是 ， 当 多 个 进程 协调 起 来 进行 处 理 
的 时 候 ， 就 有 后 抹 烦 了 。 因 为 进程 间 必须 共 至 信息。 


2 配置 了 专用 内 存 空间 的 程序 执行 代码 称 为 进程 ， 进 程 中 也 包含 CPU 状态 。 
假设 某 一 进程 〈 父 进程 ) 启动 了 别 的 进程 〈 子 进程 ) 。 进 程 之 间 具 有 独 
立 的 内 存 空间 ， 子 进程 中 的 变量 值 更 改 了 ， 也 不 会 影响 到 父 进 程 3 。 

3 子 进 程 管理 的 各 种 变量 值 ， 是 从 父 进 程 复 制 而 来 的 。 子 进程 的 变量 值 改 变 了 ， 并 不 能 反映 到 
父 进程 中 去 。 

这 样 ， 进 程 之 间 就 有 必要 进行 通信 。 只 能 用 管道 4 或 套 接 字 ? 以 字 节 流 6 
的 形式 传送 信息 。UNIX 和 Linux 中 还 有 共享 内 存 ” 这 一 机 制 ， 但 使 用 

起 来 并 没 那 么 容易 。 


4pipe (|) ， 是 把 某 一 程序 〈 进 程 ) 的 标准 输出 传 给 另 一 进程 ， 作 为 其 标准 输入 的 一 种 参数 传 
递 方法 。 用 法 就 像 cat file | more 这 样 。 































































































































































































5 socket， 是 像 操作 文件 一 样 ， 处 理 网 络 通 信 的 一 种 机 制 。 

















6 所 谓 字 节 流 ， 是 单 向 或 者 双向 数据 通信 时 的 一 个 概念 。 发 信 端 和 收 信 端 数据 的 排列 是 一 至 
的 。 
































7 共享 内 存 是 指 多 个 进程 之 间 能 够 共享 的 内 存 。 虽 然 高 速 ， 但 缺点 是 需要 有 防止 冲突 的 机 制 ， 























不 易 取得 更 新 时 机 。 


内 存 空间 之 所 以 独立 ， 是 因为 要 保护 进程 ， 避 人 免 进 程 之 间 互 相干 扰 。 但 
当 进 程 之 间 通 信 的 数据 量 很 大 ， 或 者 结构 很 复杂 的 时 候 ， 就 有 点 膝 烦 
了 。 


于 是 就 使 用 线程 3 。 使 用 线程 可 以 在 一 个 进程 中 同时 进行 多 个 处 理 。 
thread〈 线 程 ) 原意 是 缝 衣 线 的 意思 。 执 行 流 程 像 颖 在 衣服 上 的 线 一 
样 ， 一 会 儿 出 现 ， 一 会 儿 消 失 《〈 一 会 儿 执行 ， 一 会 儿 停止 ) 。 或 许 名 字 
也 起 源 于 这 种 联想 吧 。 


8 一 个 进程 由 一 个 以 上 的 线程 构成 。 


与 进程 不 同 ， 同 一 进程 的 线程 可 以 共享 内 存 空间 。 所 以 ， 不 同 的 线程 能 
够 引用 同一 对 象 。 不 需要 经 过 将 数据 变 为 字 市 流 再 进行 通信 这 样 及 烦 的 
处 理 ， 就 能 交换 信息 。 


Ruby 中 线程 机 制 以 标准 形式 提供 。Ruby 1.8 中 实现 的 线程 称 为 用 户 级 
线程 。 这 与 操作 系统 提供 的 内 核 级 线程 不 同 ， 不 能 够 活用 多 个 CPU。 而 
且 ， 线 程 之 间 的 切换 成 本 很 高 ， 会 耗费 一 部 分 处 理性 能 ， 对 机 器 的 处 理 
性 能 不 利 。 但 是 ， 不 管 操作 系统 有 没有 提供 线程 功能 ， 任 何 操作 系统 
(包括 MS-DOS) 上 动作 都 相同 。 


POSIX 标准 中 规定 的 操作 系统 提供 的 线 





























Ruby 1.9 中 ， 使 用 pthread 
程 功能 。 


能 够 轻易 进行 并 行 编程 ， 是 Ruby 的 优点 之 一 。 
10.3.2 ”生成 线程 


现在 来 看 看 用 Ruby 进行 线程 编程 。 图 10-20 是 一 个 使 用 线程 的 程序 示 
例 ” 。 


9 本 例 中 ， 线 程 之 间 不 共有 信息 。 
































Thread.newt{ 
loopt{ 
puts "thread 1" 
sleep 2 
} 


} 


loop { 
puts "main thread" 
sleep 3 

} 

















图 10-20 单纯 线程 程序 的 例子 


Thread.new 生成 一 个 新 的 线程 ， 该 线程 执行 其 下 面 的 一 段 程 序 (第 1 
行 至 第 6 行 ) 。 请 注意 ， 这 段 程 序 内 容 和 Thread.new 之 后 的 内 容 (第 
7 行 以 后 ) 同时 执行 。 最 初 的 线程 每 隔 2 秒 输出 一 串 thread 1。 


随 着 线程 的 生成 ， 程 序 的 执行 分 成 了 两 个 流程 。 一 个 不 停 地 显示 thread 
1， 另 一 个 本 来 的 控制 流程 〈 被 称 为 主线 程 ) ， 继 续 不 停 循 环 其 loop， 
3 秒 显示 一 串 main thread。 


让 程序 运行 一 会 儿 ， 厌 硕 了 融 按 CtrltC 中 断 。 执 行 如 图 10-21 所 示 。 


thread 1 
main thread 
thread 1 
main thread 
thread 1 
thread 1 
main thread 











thread 1 

main thread 

thread 1 

-:14:in ‘sleep': Interrupt 
from -:14 











图 10-21 图 10-20 中 程序 的 执行 结果 “-:14:in ...” 以 下 是 执行 中 断 时 的 显示 内 容 








在 Thread 类 中 ， 有 表 10-3 所 示 的 Thread .new 等 类 方法 (dlass 
method) ， 还 有 后 面 将 会 用 到 的 如 表 10-4 所 示 的 实例 方法 (instance 
method) 。 





表 10-3 Thread 类 的 类 方法 





方 法 名 功 能 
TS 
Thread.exit 























Thread.main 主线 程 





0 


表 10-4 _ Thread 类 的 实例 方法 


辣 有 效 庆 的 证 
soreon mention | 内 
ET 

确认 是 否 处 于 活动 状态 
CEE 






























































及 

过 的 认定 
又 
mn。 | 人 和 
th.safe level 安全 级 别 














th. stop? 确认 是 否 停止 


| 





10.3.3 ”线程 的 执行 状态 


Ruby 的 线程 有 以 下 4 种 状态 。 所 有 线程 最 初 都 从 执行 (run) 状态 开 
始 。 各 种 状态 按 图 10-22 进行 状态 迁移 。 





stop, Sleep 
IO 等 


No 





run: 执行 中 


严格 来 说 ，Ruby 的 线程 将 处 理 细 分 成 一 段 一 段 ， 交 蔡 执 行 ， 与 其 说 执 
行 中 ， 不 如 说 执行 可 能 更 贴切 。 


stop: 停止 中 

停止 的 理由 有 IO 等 待 、 时 间 等 竺 和 join 等 待 。 IO 等 待 是 指 等 待 外 部 输 
入 的 状态 。 时 间 等 每 是 指 到 达 指 定时 间 为 止 ， 集 目的 状态 (sleep 等 的 
结果 ) 。join 等 竺 是 指 表 10-4 所 示 的 join 方法 里 ， 等 待 别 的 线程 终止 的 
to_kill: 终止 处 理 中 


线程 被 强制 终止 ， 完 全 终止 之 前 ， 正 在 处 理 ensurel 等 的 状态 。 比 如 文 





件 关 闭 处 理 等 。 
10 所 谓 ensure， 是 指 作为 后 处 理 中 执行 的 程序 块 。 























killed: 终止 


终止 处 理 完成 之 后 的 状态 。 一 旦 终止 之 后 ， 线 程 不 能 再 复活 。 终 止 之 后 
的 线程 ， 也 不 会 列 在 Thread.1ist 方法 所 显示 的 一 栏 中 。 


调查 线程 现在 的 状态 ， 有 3 个 方法 ， 分 别 是 status 、alive? 和 
stop? 。status 返回 线程 现在 状态 的 字符 串 。 知 线程 处 于 活动 状态 ， 
则 返回 run 、sleep 或 aborting 中 的 某 一 个 。 若 线程 处 于 killed 状 
态 ， 则 返回 false 或 者 nil 。 


alive? 在 线程 处 于 活动 状态 的 时 候 返 回 true 。stop? 在 线程 终止 的 
时 候 返 回 true 。 终 止 包含 killed 状态 。 


对 于 因 异 常 而 终止 的 线程 ， 调 用 表 10-4 中 的 join 方法 或 value 方 
法 ， 能 够 再 产生 一 次 导致 此 线程 终止 的 异常 。 对 于 检查 线程 中 是 否 发 生 














了 异常 ， 以 及 线程 对 应 的 异 第 情况 ， 这 很 有 用 。 


t = Thread.new{...} 
t.join # 等 待 t 的 终止 


# 若 有 异常 ， 再 发 生 








join 方法 等 待 线 程 的 终止 。value 方法 在 等 待 线 程 终 止 的 同时 ， 还 要 
返回 (该 线程 程序 块 的 ) 最 后 的 计算 值 。 


10.3.4 ”传递 值 给 线程 的 方法 
现在 再 来 看 一 个 使 用 线 程 的 程序 吧 (参见 图 10-23) 。 





require "socket" 


gs = TCPserver.open(0) 

loop do 
# 线程 的 启动 
# start 参数 传递 给 块 参数 
Thread.start(gs.accept) do |s| 








s.close 
end 
end 











图 10-23 ”使 用 线程 记述 的 socket server 


国 10-23 中 的 程序 是 使 用 线程 的 socket server 的 锥 形 。 接 受 了 来 自 客户 
端的 连接 以 后 ， 束 生 成 一 个 新 的 线 程 ， 然 后 将 处 理 交 给 它 。 线 程 是 并 
行 运行 的 ， 一 个 客户 端的 处 理 完成 之 前 ， 可 以 没有 任何 问题 地 处 理 来 自 

下 一 个 客户 端的 连接 。 请 注意 这 里 给 线程 传递 值 的 方法 。 


图 10-23 中 ， 有 必要 说 明 一 下 Thread .start 的 参数 。 传 递 给 
Thread. start 的 参数 被 赋值 给 块 参数 ， 这 可 用 于 给 线程 传递 值 。 


11 块 是 Ruby 特有 的 语法 。 它 是 可 以 追加 在 方法 调用 末尾 的 代码 块 。 其 表现 形式 是 方法 名 { 代 
但 }。 附加 有 代码 块 的 方法 可 | 以 在 运行 时 调用 代码 块 的 内 容 。{ 代 码 } 中 以 | 变量 | 形式 所 声明 的 变 
量 ( 如 图 10-23 中 的 |s|) 称 为 块 参数 。 


因为 可 以 从 代码 块 看 见 外 侧 的 变量 ， 所 以 变量 可 以 直接 引用 。 比 如 ， 程 
序 的 循环 部 分 像 下 面 这 样 珍 换 以 后 也 能 运行 

S = gs.accept 

Thread .start() do 


处 理 内 容 
s.close 






















































































end 





但 时 机 不 好 时 ， 会 产生 误 动 作 。 也 就 是 说 ， 在 线程 处 理 完成 之 前 ， 又 去 
执行 下 一 个 accept 时 ，s 的 值 可 能 被 蔡 换 。 


在 线程 编程 时 ， 各 个 线程 同时 运行 ， 动 作 的 预想 比 通常 程序 要 困难 。 可 
以 说 需要 更 好 的 想象 力 。 


10.3.5 ”信息 共享 所 产生 的 问题 


使 用 线程 ， 在 并 行 处 理 中 可 以 简单 地 实现 信息 共享 。 但 也 并 不 是 光 有 好 




















事 。 现 实 社 会 也 是 这 样 ， 在 共同 生活 中 ， 如 采 彼 此 之 间 太 随便 ， 想 干 什 
么 就 干什么 ， 那 么 关系 人 迟早 要 破裂 。 线 程 处 理 也 是 如 此 ， 有 可 能 发 生 以 
下 问题 。 


。 数据 完整 性 的 丧失 。 

。 死 锁 。 
不 管 哪 一 个 ， 与 其 说 是 线程 的 问题 ， 不 如 说 是 并 行 处 理 本 映 的 问题 。 但 
是 ， 线 程 要 共享 内 存 空 间 ， 比 其 他 的 并 行 处 理 更 容易 发 生 问 题 。 下 面 逐 
个 来 看 这 些 问 题 吧 。 
10.3.6 ”数据 完整 性 的 丧失 
从 刚才 图 10-23 的 例子 已 经 知道 ， 共 享 中 的 数据 如 果 被 更 改 了 ， 会 发 生 
意 想 不 到 的 恶劣 影响 。 线 程 之 间 共 享 同一 内 存 空 间 ， 可 能 无 意 间 同 时 访 


问 了 同一 变量 或 同一 对 象 。 这 就 会 发 生 数 据 完整 性 的 丧失 。 最 常见 的 例 
子 是 银行 账户 (参见 图 10-24) 。 











余额 设 定 
6000 日 元 





2000 日 元 


图 10-24 ”数据 完整 性 的 丧失 ， 银 行 交 易 的 例子 





对 于 某 一 银行 账户 ， 如 果 用 户 A 和 用 户 B 几乎 同时 访问 时 ， 就 会 出 问 


大。o 


简单 说 明 一 下 流程 。 用 户 A 查询 账户 余额 ， 取 出 2000 日 元 后 ， 将 差额 
设 为 新 的 余额 。 另 一 方面 ， 用 户 B 也 同样 查询 账户 余额 ， 取 出 4000 日 
元 ， 将 差额 设 为 新 的 余额 。 账 户 最 初 只 有 1 万 日 元 ， 图 中 最 后 的 合计 金 
额 (用户 A、 用 户 B 和 银行 账户 ) 却 变 成 1.2 万 日 元 。 银 行 如 果真 有 了 
这 种 麻烦 ， 那 可 是 个 大 问题 。 


图 10-24 中 流程 的 笨拙 之 处 在 于 多 个 线程 双 无 讲究 地 访问 同一 个 账户 。 
在 至 今 已 经 习惯 按 次 序 执行 的 世界 里 ， 没 有 机 会 同时 引用 同一 数据 ， 不 
知 不 觉 就 会 忘 了 这 个 矛盾 情形 。 


在 并 行 处 理 环境 里 ， 从 余额 但 询 开始 到 新 的 余额 设 定 为 止 ，( 别 的 处 
理 ) 不 能 中 途 插 入 。 这 样 不 能 分 割 的 处 理 称 为 原子 (atomic〉 处 理 。 在 
原子 处 理 的 过 程 中 ， 需 要 将 此 账户 保护 起 来 ， 不 能 让 别 的 线程 对 此 账户 











进行 操作 。 
10.3.7” 死 锁 


编程 中 所 说 的 死 锁 ， 是 指 多 个 线程 互相 争夺 资源 、 谁 也 动 不 了 的 状态 。 
经 典 的 案例 有 哲学 家 就 餐 问 题 。 哲 学 家 就 餐 问题 如 下 所 述 。 


5 个 哲学 家 围 坐 在 一 个 圆 果 劳 〈 参 见 图 10-25) 。 每 个 哲学 家 前 面 放 一 
个 盛 满意 大 利 面 条 的 盘子 。 每 个 盘子 两 边 各 放 一 根 合子 〈 共 5 根 ) 。 哲 
学 家 从 早 到 晚 都 在 思索 ， 有 时 肚子 饿 了 ， 就 从 盘子 两 边 拿 筷子 吃 面条 。 
哲学 家 举止 得 体 ， 即 使 肚子 再 俄 ， 也 不 会 用 手 或 单 根 秘 子 吃 面 条 。 


突然 ， 在 某 一 瞬间 ， 所 有 哲学 家 都 要 吃 面条 ， 假 设 都 拿 了 自己 右边 的 策 
子 。 再 想 拿 自 己 左边 第 子 的 时 候 ， 发 现 已 经 被 别 的 哲学 家 拿 走 了。 每 个 
哲学 家 都 是 右手 拿 着 筑 子 ， 一 直 等 着 旁边 的 哲学 家 吃 完 。 但 是 ， 谁 也 吃 
不 成 ， 大 家 都 在 那儿 狐 着 。 


























像 这 样 ， 由 于 某 种 竞争 ， 处 理 永 远 陷 入 停止 状态 ， 我 们 称 之 为 死 锁 。 
多 个 并 行 处 理 共 享 的 资源 〈 称 为 resource， 这 种 情况 下 是 筷子 ) 不 足 的 
时 候 ， 如 果 访 问 步骤 考虑 不 周 的 话 ， 束 会 引起 死 锁 。 


由 上 述 哲 学 家 的 情况 ， 我 们 可 以 知道 问题 出 在 资源 的 访问 顺序 上 。 不 仪 
限于 此 问题 ， 在 很 多 场合 ， 访 问 顺 序 的 整理 都 是 很 重要 的 。 比 如 说 ， 所 
哲学 家 ， 如 果 能 贯彻 执行 以 下 规则 ， 就 可 以 规避 死 锁 * 。 





12 严格 地 说 ， 全 体 成 员 的 动作 有 可 能 同时 发 生 ， 所 以 还 必须 考虑 放下 筑 子 的 时 刻 。 








(1) 首先 取 右 边 的 特 子 。 
(2) 如 果 左 边 的 筷子 拿 不 到 的 话 ， 就 放下 右边 的 筷子 。 








10.3.8 ”用 锁 来 实现 对 资源 的 独占 


银行 的 例子 也 好 ， 哲 学 家 的 例子 也 好 ， 如 果 同 时 访问 资源 ， 就 会 成 为 程 
序 的 陷阱 。 


规避 资源 的 同时 访问 ， 有 几 种 方法 ， 其 中 最 简单 的 是 独占 使 用 中 的 资 
源 。 为 此 ， 提 供 了 资源 的 “ 锁 ” 这 一 手段 。 


现实 社会 里 ， 最 第 见 的“ 锁 ”"， 大 概 束 是 厕所 的 单间 吧 。 耐 所 的 单间 ， 一 
次 只 能 供 一 个 人 使 用 。 有 人 进去 了 ， 束 加 上 锁 。 从 外 面 看 是 红 记 号 ， 囊 
知道 有 人 在 里 面 。 线 程 处 理 也 是 一 样 ， 使 用 仅 有 的 资源 的 时 候 ， 就 加 上 
锁 ， 加 上 一 个 “ 独 丘 中 ”的 记号 就 行 了 。 


银行 账户 的 例子 中 ， 对 账户 进行 一 连 串 操作 的 过 程 中 将 账户 加 上 锁 ， 中 
途 不 允许 别 的 操作 挤 进来 ， 就 可 以 解决 死 锁 问题 。 哲 学 家 的 例子 中 ， 在 
抓 住 两 边 筷 子 时 加 上 锁 ， 使 得 别 的 哲学 家 不 能 干扰 ， 束 能 够 规避 死 锁 问 


匮 。 











Ruby 里 ， 加 锁 用 Mutex 类 。Mutex 是 互 奈 锁 (Mutual Exclusive Lock) 
的 缩写 。 使 用 Mutex 类 ， 需 要 require thread 库 (参见 图 10-26) 。 


require 'thread' 


m = Mutex.new 


m.synchronize { 


. .# 使 用 资源 的 处 理 



































} 























图 10-26 Mutex 类 的 使 用 示例 





Mutex 类 的 synchronize 方法 ， 用 于 处 理 该 代码 块 时 ， 对 Mutex 对 象 
进行 加 锁 咏 。 别 的 线程 想 要 对 同一 个 Mutex 对 象 执行 synchronize 方 
法 时 ， 必 须要 等 到 现在 执行 中 的 synchronize 方法 完成 并 解锁 之 后 才 
能 进行 。synchronize 围 起 来 的 代码 块 ， 是 别 的 线程 不 能 侵入 的 领 
域 ， 有 时 称 为 critical section。 


13 代码 块 执行 后 ，Mutex 的 锁 自 动 解放 。 





不 能 起 记 的 是 ，Mutex 无 非 是 一 个 君子 协定 。 实 际 上 不 检查 锁 就 可 以 操 
作 资 源 ， 并 非 目 动 茶 止 。 用 锁 来 保护 资源 的 时 候 ， 别 迄 了 对 所 有 资源 的 
访问 都 要 检查 锁 。 


为 了 使 用 Ruby 让 这 个 检查 变 得 聪明 些 ， 对 资源 的 访问 全 部 要 经 由 茶 一 
特定 的 对 象 ， 由 这 个 对 象 的 方法 在 内 部 对 锁 进行 检 查 参 见 图 10- 
27)28 





class Resource 
def initialize 
@mutex = Mutex.new 
end 
def use 
@mutex.synchronize{ 


ee 


end 
end 


r = Resource.new 
r.use 








图 10-27 访问 资源 的 专用 类 之 记述 示例 
Java 中 ， 方 法 定义 声明 为 synchronize ， 该 方法 被 调用 时 自动 加 锁 。 
10.3.9 ”二 级 互 斥 


很 遗憾 ， 锁 的 问题 并 不 全 是 Mutex 所 能 窗 盖 的 单纯 事例 。 比 如 数据 库 
中 ， 对 数据 的 访问 需要 以 下 多 种 互 斥 控制 。 











可 以 同时 引用 。 

禁止 同时 更 新 。 

禁止 更 新 中 引用 。 

茶 止 引用 中 更 新 。 

人 (二 级 互 斥 ) ， 在 文件 读 取 时 也 经 第 会 


现实 世界 中 也 有 类 似 例子 。 比 如 看 电视 和 更 换 频道 相当 于 二 级 互 斥 ， 如 
果 有 个 人 在 看 电视 ， 束 不 让 别人 看 同一 个 频道 ， 这 种 独占 就 太 过 分 了 。 
ee 正 看 在 劲头 上 ， 别 人 却 换 了 频道 ， 就 让 人 讨 
大 了 。 


这 种 情况 下 ， 使 用 sync.rb 中 定义 的 Sync 类 。Sync 类 和 Mutex 同样 
使 用 ， 但 有 一 个 区 别 。synchronize 方法 可 以 指定 互 斥 模式 。 


互 斥 模式 有 两 种 ， 一 种 是 EX 模式 ， 一 种 是 SH 模 式 。EX 模 式 像 更 新 一 
样 ， 同 时 只 能 有 一 个 执行 。SH 模 式 与 EX 模式 虽然 不 能 同时 执行 ， 但 与 
其 他 模式 并 不 互 斥 。 这 两 种 模式 分 别 以 :EX 和 :SH 指定 。 


现在 ， 把 sync 类 看 做 电视 机 吧 〈 参 见 图 10-28) 。 编 程 内 容 有 点 不 自 
然 ， 将 就 一 下 吧 。 正 如 Mutex 所 示 ， 资 源 电视 机 ) 对象 的 方法 

start_ watch ，end_watch ，set_ch 中 骨 入 排他 控制 。 这 样 更 明智 一 
些 。 





require "Sync 


class TV 
def initialize 
@ch = 1 
@sync = Sync.new 


end 

# 开始 看 电视 

def start watch 
@sync.1lock( :SH) 

end 

# 看 完 电视 

def end watch 





@sync.unlock( :SH) 

end 

def set ch(ch) 
@sync.synchronize(:EX){ 

@ch = ch # 换 频 道 

} 

end 

end 





图 10-28 使 用 Sync 类 的 互 斥 模式 解决 看 电视 问题 的 示例 


图 10-28 中 的 TV 类 里 ， 有 人 在 看 电视 的 时 候 ， 不 能 更 换 频 道 。 只 有 在 
没 人 看 电视 的 时 候 ， 才 能 给 予 频道 变更 权 。 这 样 做 ， 束 避免 了 有 人 独占 
电视 ， 或 者 有 人 正在 看 电视 时 更 换 频 道 的 事态 。 


10.3.10 用 队列 协调 线程 


使 用 锁 对 资源 进行 互 斥 控制 ， 是 线程 间 保 证 协调 的 一 种 机 制 。 除 了 锁 以 
外 ， 为 了 保证 协调 ， 还 有 别 的 方法 。 


本 来 问题 的 根源 就 在 于 多 个 进程 访问 同一 资源 ， 如 有 果 不 进行 这 种 访问 惑 
好 了 。 这 种 方法 ， 因 为 没有 共享 的 东西 ， 而 被 称 为 无 共 孚 〈shared 
nothing) 。 


为 了 实现 无 共 圣 ， 给 每 个 资源 准备 一 个 管理 用 的 线程 ， 各 线程 间 只 能 交 
换 某 些 限 定 的 信息 。 


线程 间 信 息 交 换 的 方法 有 很 多 种 ， 有 代表 性 的 有 消息 存储 〈message 
banking) 、 信 道 channel) 及 队列 (queue) 。 


这 里 介绍 通过 队列 进行 的 线程 间 通 信 。 在 无 共 胖 结构 里 ， 东 一 线程 制作 
数据 ， 男 一 线程 通过 队列 获取 数据 ， 然 后 进行 下 一 步 处 理 。 


这 种 关系 称 为 生产 者 一 消费 者 模型 ， 制 作 数 据 的 线程 称 为 生产 者 
(producer) ， 获 取 数 据 的 线程 称 为 消费 者 〈consumer) (参见 图 10- 
人 






































图 10-29 生产 者 一 消费 者 模型 ， 通 过 队列 进行 线程 间 通 信 


二 


连接 生产 者 和 消费 者 ， 起 着 “传送 带 ” 作 用 的 是 Queue 类 。 队 列 是 具有 
FIFO (first-in，first-out， 先 进 先 出 ) 性 质 的 数据 集合 ， 恰 如 其 名 ， 先 进 
来 的 数据 先 出 去 。 


来 看 一 个 实际 使 用 Queue 类 的 程 友 吧 (参见 图 10-30) 。 


require "thread 

















二 




















q = Queue .new 


producer = Thread 
16.times {|i| 
q.push(i) 
sleep(1) 


} 
q.push(nil) 


consumer = Thread 
loopt{ 
i = q.pop 
break if i == 
puts i 
} 
} 


consumer .join 




















图 10-30 Queue 类 的 使 用 示例 


生产 者 每 秒 往 队 列 里 追加 (push) 一 个 整数 ， 消 费 者 从 队列 里 取出 
(pop) 数字 和 输出。 消费 者 速度 快 ， 队 列 变 空 之 后 ， 消 费 者 暂停 ， 直 
至 生产 者 往 队 列 里 追加 数据 。 











14 图 10-30 中 的 场合 ， 因 为 有 sleep(1) ， 所 以 生产 速度 < 消费 速度 。 


生产 者 送出 一 定 个 数 的 整数 之 后 ， 会 送出 一 个 表示 终止 的 标识 nil 。 消 
费 者 接收 到 nil 后 ， 用 break 跳出 循环 。 主 线程 通过 程序 最 后 一 行 的 
join ， 等 待 消费 者 线程 的 执行 。 执 行 结果 如 图 10-31 所 示 。 











% ruby q.rb 
0 








图 10-31 图 10-30 中 程序 的 执行 结果 


那么 ， 假 设 生产 者 比 消费 者 快 ， 将 会 怎样 呢 ? 来 不 及 消费 的 数据 积压 在 
te 
产 数 据 。 


这 种 情况 下 ， 便 利 的 是 SizedQueue 类 。 生 成 一 个 长 度 有 一 定 限 制 的 队 
列 ， 数 据 积累 到 一 定数 量 ， 就 停止 追加 数据 。SizedQueue 的 使 用 方 
法 很 简单 ， 在 刚才 的 程序 里 ， 只 要 把 下 面 的 第 1 行 换 成 下 面 的 第 2 行 即 
可: 

















15 这 样 就 不 会 丢失 来 不 及 消费 的 数据 。 





Queue .new 
S 


q = 
q = SizedQueue.new(size) 





size 部 分 放 入 队列 的 最 大 长 度 。 不 管 是 生产 太 快 ， 还 是 消费 太 快 ， 都 


能 目 动 调整 。 


队列 也 可 用 于 解决 资源 的 竞争 。 准 备 一 个 用 于 管理 资源 的 线程 ， 对 资源 
的 请 求 request) 通过 队列 发 送 给 该 线程 (参见 图 10-32) 。 








图 10-32 用 队列 解决 资源 竞争 的 方法 
这 样 ， 直 接 操作 资源 的 只 有 管理 线程 ， 因 此 不 会 发 生 竞 争 。 


有 一 个 实例 。Ruby/Tk 1 采用 这 种 方法 。 多 个 线程 不 能 同时 访问 通过 Tk 
的 GUI 操作， 来 自 各 个 线程 的 GUI 命令 都 通过 队列 发 送 到 管理 线程 。 
管理 线程 调用 Tk 库 来 处 理发 送 过 来 的 GUI 命令 。 


16 所 谓 Ruby/Tk， 是 Ruby 与 GUItoolkit Tk 组 合 而 成 的 处 理 系 统 。 
10.3.11 锁 模 型 与 队列 模型 的 比较 


如 果 与 线程 相关 的 程序 出 了 问题 ， 那 么 排 错 (debug〉 起 来 可 就 难 了 。 

与 线程 相关 的 程序 错误 (bug) 往往 因为 时 机 不 同 ， 有 时 发 生 ， 有 时 不 
发 生 。 即 使 执行 同样 的 程序 ， 错 误 要 么 不 能 再 现 ， 要 么 10 次 之 中 只 有 
工交 个 行 ， 成 为 年 质 恶 荔 的 程序 错误 。 这 征 软 件 铬 误 中 最 难 排除 的 一 

从。 

这 次 特意 没有 同时 访问 多 个 资源 ， 回 避 了 线程 编程 中 容易 出 现 的 问题 。 
但 是 ， 资 源 的 访问 说 起 来 简单 ， 事 实 上 ， 因 为 含有 方法 调用 、 变 量 引用 
等 许多 琐碎 的 处 理 ， 难 免考 虑 不 周 。 


作为 防止 资源 竞争 的 手段 ， 按 顺序 分 别 介绍 了 使 用 锁 的 锁 模 型 和 使 用 队 
列 的 队列 模型 。 不 能 说 哪 种 更 优秀 ， 它 们 各 自 有 以 下 特征 。 


锁 模 型 


如 果 苋 搜 足够 少 ， 多 数 情况 下 能 保持 较 噩 性能。 但 是 ， 对 于 资源 的 阮 
和 争 ， 不 能 忘记 加 锁 。 要 做 到 完美 无 缺 较 难 。 














队列 模型 


在 苋 争 少 的 时 候 ， 其 性 能 比 不 上 锁 模型 ， 但 对 于 程序 员 来 说 ， 它 比 锁 模 
型 更 容易 贯彻 。 虽 然 各 种 处 理 系统 的 表现 不 尽 相 同 ， 但 这 种 方法 很 少 会 
因为 线程 增多 而 带 来 性 能 低下 的 恶果 。 


， 有 一 种 语言 Erlang， 在 一 部 分 人 中 成 为 话题 。 该 语言 采用 了 与 队 
Erlang 中 ， 即 使 线程 〈Erlang 中 称 
process) 的 数目 很 多 ， 也 很 少 会 有 性 能 低下 的 现象 ， 多 核 时 还 能 最 大 限 
人 
PS 为 主流 。 


随 看 CPU 电路 的 微小 化 ， 性 能 的 提高 也 会 达到 其 物理 极限 。 在 不 远 的 
将 来 ，CPU 的 热 密度 或 将 达到 火箭 喷射 口 的 程度 ”， 而 且 ， 根 据 光速 极 
限 ，1 个 时 钟 周期 内 电子 能 够 移动 的 距离 也 只 能 达到 几 厘 米 的 水 平 。 


17 现在 的 CPU 的 热 密度 也 比 热 板 高 。 热 板 是 吃 烤肉 时 用 于 加 热 的 铁 板 。 


多 核能 够 超越 此 极限 ， 想 要 达到 更 高 的 性 能 ， 多 核 成 为 必然 的 途径 。 在 
多 核 环 境 下 ， 如 果 软 件 还 像 现在 这 样 ， 就 不 和 EE 充分 享受 CPU 的 性 能 提 
高 所 融 来 的 好 处 。 


为 了 达到 高 性 能 ， 软 件 必 须 提 供 对 并 行 编程 的 文 持 。 所 以 ， 对 编程 语言 
来 说 ， 并 行 处 理 今后 丘 定 会 成 为 非常 热门 的 话题 。 关 于 性 能 和 扩展 性 ， 
现在 还 是 Ruby 的 弱点 ， 是 今后 要 解决 的 课题 。 















































10.4 前 景 可 期 的 并 行 编 程 扩 术 ，Actor 


前 一 节 我 们 已 经 看 到 ， 线 程 编 程 容易 变 得 复杂 化 ， 不 但 因为 同步 和 竞争 
容易 引起 问题 ， 而 且 一 旦 发 生 问题 ， 症 状 会 因 时 机 不 同 而 变化 ， 以 致 于 
很 难处 理 。 这 或 许 是 因为 线程 这 种 并 行 化 处 理 的 模型 不 适合 人 类 去 处 理 
吧 。 


并 行 编程 ， 要 求 有 更 高 的 抽象 度 和 对 人 类 而 言 更 简单 的 编程 模型 。Curl 
Hewitt 提倡 的 “Actor Model”( 参 与 者 模式 ) 或 许 会 成 为 这 个 问题 的 答 


案 。 




















10.4.1 何谓 Actor 


前 言 束 说 这 么 多 。 还 是 来 看 Actor 是 什么 吧 。 所 谓 Actor， 是 ( 仅 ) 通 
过 消息 (message)〉 进行 通信 的 实体 。 


单 从 这 个 定义 来 看 ， 好 像 与 面 同 对 象 语言 的 对 象 也 没什么 区 别 ， 但 其 实 
还 是 有 的 。 癌 对 象 发 送 消 恩 方法 调用 ) ， 调 用 开始 后 ， 会 一 直 等 到 返 
回 结 果 ， 是 一 种 同步 方式 。 而 向 Actor 发 送 消 息 ， 仅 仅 是 发 送 消息 而 不 
等 返回 结果 ， 是 一 种 异步 方式 。 


作为 并 行 处 理 的 机 制 ， 大 家 都 知道 线程 。 多 个 控制 流 同 时 运行 的 线程 ， 
非常 简单 和 容易 实现 ， 如 果 协 调和 同步 方面 不 需要 花费 很 大 成 本 的 话 ， 
下 能 够 得 到 很 高 的 性 能 。 

男 一 方面 ，Actor 基本 上 仅仅 通过 消 轧 进行 信息 交换 。 因 为 不 能 直接 共 
圣 同一 个 值 ， 信 息 传 达 上 就 要 多 花 些 代价 。 

但 是 ， 为 了 避免 线程 间 资 源 竞争 ， 需 要 动用 锁 或 者 队列 等 各 种 方法 来 
保护 对 资源 的 访问 。 

1 所 谓 资源 竞争 ， 是 指 多 个 线程 同时 访问 同一 资源 变量、 设备 等 )》 ， 由 于 时 机 不 同 ， 执 行 结 
果 变 得 不 确定 ， 或 者 程序 状态 变 得 不 完整 。 


Actor 由 于 没有 消息 以 外 的 信息 传递 手段 ， 所 以 不 用 担心 Actor 之 间 的 
资源 竞争 。 发 送 给 Actor 的 消息 ， 都 配送 到 各 个 Actor 所 拥有 的 邮箱 
里 。 多 个 消息 同时 到 达 时 的 竞争 ， 已 经 由 内 瞬 到 系统 中 的 排除 机 制 来 处 





















































理 了 。 


Actor 有 一 个 大 的 优点 是 安全 ， 但 更 大 的 优点 是 “ 易 懂 ”。Actor 根据 消息 
进行 处 理 ， 必 要 的 话 ， 会 向 其 他 Actor 传递 消息 ， 或 者 向 源 Actor 返回 
消息 。 


这 与 现实 世界 中 人 与 人 之 间 的 相处 没有 大 的 差别 。 现 实 志 界 中 ， 别 人 在 
想 什 么 你 不 知道 ， 想 要 求 什么 时 ， 需 要 通过 茶 种 手段 传达 “ 消 妃 ”。 


另外 ， 通 过 消息 接受 某 种 要 求 的 人 ， 与 提出 要 求 的 人 独立 开展 工作 。 工 
作 完 成 之 后 ， 发 送 “ 完 成 2 的 消息 返回 给 提出 要 求 的 人 。 对 于 我 们 而 言 ， 
这 种 方法 非常 自然 ， 整 体 处 理 流 程 也 容易 把 握 。Actor 原意 是 演员 ， 正 
如 这 个 字面 意思 ，Actor (演员 ) 与 其 他 Actor (演员 ) 通过 台词 〈 消 
奶 ) 对 白 ， 完 成 他 的 角色 ， 将 剧情 (程序 ) 进行 下 去 。 


简单 总 结 一 下 ， 理 论 上 要 达到 最 高 性 能 ， 一 般 认为 线程 更 优秀 。 但 如 果 
不 注意 使 用 线程 的 话 ， 会 出 现 与 时 机 相关 的 很 呈 烦 的 问题 。 在 计算 机 性 
能 日 渐 提 高 的 今天 ， 与 理论 上 最 高 性 能 的 可 能 性 相 比 ， 由 Actor 实现 的 
安全 性 和 易 懂 性 更 引 人 注 目 。 
10.4.2 ”操作 Actor 的 3 种 处 理 系统 
下 面 介 绍 操作 Actor 的 3 种 处 理 系 统 。 为 了 将 处 理 系统 的 区 别 突出 出 
来 ， 我 们 使 用 共同 的 例题 。 例 题 是 名 叫 pingpong 的 程序 。 该 程序 进行 
以 下 处 理 : 

1. 生成 两 个 Actor; 


2. 首先 ， 辐 一 个 Actor 发 送 循环 次 数 和 包含 另 一 个 Actor 信息 的 消 
忆 ; 














3. 接收 消息 的 Actor 将 循环 次 数 减 1， 返 回 消息 给 男 一 Actor; 
4. 重复 以 上 消息 的 发 送 和 接收 ， 直 至 循环 次 数 变 为 0。 
两 个 Actor 互相 发 送 消 县 ， 像 打 乒 兵 球 (pingpong) 一 样 。 虽 然 是 特意 


编造 的 例题 ， 却 能 表现 各 个 处 理 系 统 如 何 进 行 Actor 最 根本 的 处 理 ， 即 
Actor 如 何 生 成 ， 消 妃 如 何 发 送 和 接收 。 


首先 要 介绍 一 下 采用 Actor Model 的 函数 型 语言 Erlang。 因 Actor Model 
的 并 行 编程 而 最 近 才 受到 瞩目 的 Erlang 是 很 古老 的 语言 ， 于 1987 年 左 
右 由 瑞典 的 电话 公司 爱立信 〈Ericsson) 所 开发 。 


Erlang 这 个 名 字 ， 来 源 于 丹 妥 的 数学 家 、 统 计 和 学 家 及 技术 学 家 Anger 
Krarup Erlang。 读 作 “ 阿 郎 ”"， 北 欧 人 发 “阿尔 ”理发 得 清晰 ， 把 这 个 字 读 
作 *“ 艾 尔 郎 ?估计 也 不 会 错 吧 。 


Erlang 语言 因 人 而 得 名 ， 但 隐 含 着 “爱立信 的 语言 ”> 这 种 意思 。Erlang 实 
际 上 用 在 像 爱 立信 的 交换 机 程序 那样 的 大 规模 而 且 复杂 的 应 用 上 。 
Erlang 虽然 积累 了 长 年 的 实践 经 验 ， 但 上 自从 1998 年 处 理 系统 开放 源 代 
人 码 以 来 ，Erlang 给 爱立信 以 外 的 人 的 印象 ， 仍 然 是 未 知 的 技术 。 


Erlang 是 只 人 允许 单一 赋值 的 函数 型 语言 。 所 谓 单 一 赋值 ， 是 指 一 旦 赋 
值 ， 变 量 的 值 就 不 允许 再 改变 。“ 变 量 的 值 现在 变 成 什么 ? ”这 是 程序 排 
错 〈debug) 中 的 重要 课题 。 但 在 Erlang 中 ， 能 够 保证 所 赋 的 值 一 直 不 
变 ， 这 一 反 可 以 帮助 程序 员 比 较 容易 地 找 出 问题 所 在 。 


但 是 ，Erlang 的 最 大 特征 还 是 Actor Model 编程 。Erlang 中 ，Actor 
Model 是 基本 ， 几 乎 所 有 处 理 都 用 Actor。Erlang 中 ， 将 Actor 称 为 
process。 这 容易 与 操作 系统 的 进程 (process) 混淆 ， 但 据说 因为 是 不 像 
线程 那样 共享 状态 ， 所 以 被 称 为 process。 



































10.4.3 Erlang 的 程序 


那么 ， 看 看 用 Erlang 写 的 pingpong 程序 吧 (参见 图 10-33) 。 第 工行 
的 “-module(ping)”*” 是 模块 声明 。Erlang 的 程序 ， 总 是 从 模块 声明 开始 。 
模块 名 必须 与 文件 名 相同 。 从 这 一 行 可 以 知道 ， 程 序 以 文件 名 
ping.erl 保存 。 


1 -module(ping). 
2 -export([main/1,start/1,pingpong/1]). 
3 
4 pingpong(Name) -> 
receive 
{_,0} -> 
io:format("~s:done~n", [Name|]); 
{Partner, Count} -> 
if ((Count rem 5606) < 2) -> 
io:format("~p: pingpong ~p~n", [Name, Count]); 





©O on、I CU 
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11 true -> true 


12 end， 

13 Partner ! {self(), Count -1}, 
14 pingpong(Name) 

15 end. 

16 


17 start(N) -> 

18 Pong_PID = spawn(ping, pingpong, [pong]), 
19 Ping PID = spawn(ping, pingpong, [ping]), 
20 Pong_PID ! {Ping PID, N}. 


21 

22 main([A]) -> 

23 start(list to integer(atom to list(A))), 
24 init:stop(). 











图 10-33 用 Erlang 写 的 pingpong 程序 





第 2 行 声 明 是 能 够 从 模块 之 外 访问 的 函数 名 。 名 字 后 面 的 /1 ， 是 参数 
个 数 的 意思 。Erlang 中 ， 人 允许 存在 函数 名 相同 而 参数 个 数 不 同 的 函 

数 ，/1 是 为 了 明示 这 个 区 别 。 这 与 Prolog 语句 的 记 法 相同 ， 说 明 函 数 
型 语言 Erlang 实际 上 受到 了 Prolog 相当 的 影响 。 


第 4 行 定义 pingpong 函数 。 斥 容 暂 且 放 在 后 面 次 明 ， 先 注意 一 下 变量 
都 是 以 大 写字 母 开 始 的 这 一 点 。 还 有 ， 以 小 写字 母 开 始 的 标识 符 都 是 符 
号 名 〈symbol) ， 这 也 很 像 Prolog。 


10.4.4 Pingpong 处 理 的 开始 


颠倒 一 下 说 明 的 顺序 。 第 17 行 开 始 的 start 函数 ， 是 实际 上 
pingpong 开始 处 理 的 函数 。 第 18 行 与 第 19 行 的 spawn 生成 新 的 
process。spawn 只 以 函数 为 参数 ， 这 里 使 用 的 3 个 参数 分 别 是 模块 名 、 
函数 名 和 传递 给 函数 的 参数 。 


以 spawn 生成 的 新 process 为 基础 ，pingpong 函数 开始 执 
行 ，pingpong 函数 以 receive 语句 等 待 消 息 发 送 来 。spawn 返回 新 生 
成 的 process 的 ID。 


这 样 束 生成 了 两 个 process。 以 癌 其 中 一 个 发 送 消息 开始 pingpong 。 
Erlang 中 用 ! 运 算 符 问 process 发 送 消 息 。 左 边 是 发 送 消 息 的 目标 

















process， 右 边 是 具体 的 消息 。Erlang 中 ， 消 息 可 以 使 用 任意 值 ， 但 这 次 
发 送 的 消息 是 pingpong 对 象 的 process ID 和 所 剩 循环 次 数 的 2 倍 。 


消息 发 送 过 来 之 后 ， 用 receive 语句 等 待 着 的 process 开始 运 
行 。receive 语句 对 发 送 过 来 的 消息 进行 模式 匹配 ， 按 消息 内 容 分开 处 
理 。 


模式 匹配 中 ， 如 宁 指 定 的 是 具体 的 值 〈《 符 号 名 、 数 值 等 ) ， 就 检查 与 指 
定 值 是 否 一 致 ， 如 有 宁 指 定 的 是 变量 〈 以 大 写字 母 开 始 的 字符 串 ) ， 惑 赋 
予 对 应 的 值 。 模 式 匹 配 从 上 开始 ， 选 择 最 初 的 匹配 进行 相应 的 处 理 。 

当 计数 器 到 达 0 的 时 候 ， 匹 配 {_,8} 。_ 能 匹配 任何 字符 ， 在 不 关心 匹 


配 的 值 时 使 用 。 这 里 重要 的 只 是 循环 次 数 为 0， 而 并 不 关心 对 方 是 哪个 
过 程 ， 所 以 就 用 _ 来 匹配 过 程 名 。 


当 计 数 器 到 达 0 的 时 候 ，pingpong 函数 送出 done 消息 并 结束 。Erlang 
中 io:format 是 带 格式 输出 函数 。C 与 Ruby 中 的 %， 在 Erlang 中 成 为 











{Partner,Count} 对 消息 进行 模式 匹配 。 对 象 process 的 ID 赋值 给 
Partner ， 剩 下 的 循环 次 数 赋值 给 Count 。 如 果 除 以 500 的 余数 是 0 
或 者 1， 就 输出 现在 的 循环 次 数 ， 并 同 Partner 返回 消息。Erlang 

中 ，% 是 注释 记号 ， 求 余数 用 rem 运算 符 。 除 以 500 的 余数 是 0 或 1 时 
输出 循环 次 数 ， 是 因为 想 在 两 方 process 中 都 进行 输出 。 


if 语句 中 的 true -> true ， 是 不 让 编译 需 输 出 编译 错误 的 “ 护 映 
符 ”。Erlang 中 包括 if 语句 ， 各 种 东西 都 是 表达 式 ， 而 且 都 是 有 值 的 。 
如 果 没 有 相当 于 别 的 语言 的 else 部 分 的 true-> 部 分 ， 就 会 被 认 作 是 
值 不 确定 ， 从 而 产生 编译 错误 。 实 际 上 这 里 if 语句 的 值 没 有 使 用 ， 我 
觉得 不 这 样 指 定好 像 也 没关系 。 


第 14 行 递归 调用 pingpong 函数 ， 这 称 为 末尾 递归 ， 用 于 实现 循环 。 
实际 上 函数 型 语言 Erlang 没有 实现 循环 的 语法 。 想 实现 循环 的 时 候 就 用 
末尾 递归 。 


总 觉得 无 限 递归 ， 最 终 会 用 光 堆 栈 ， 从 而 导致 错误 。 但 Erlang 中 会 对 末 
尾 递 归 进 行 特别 处 理 ， 不 用 担心 。 








10.4.5 ”启动 pingpong 程序 


现在 启动 pingpong 程序 试 试 吧 。 如 果 安 装 了 Erlang 处 理 系 统 ， 肯 定 可 
以 使 用 erl 命令 。erl 命令 不 带 参数 时 ， 将 局 动 对 话 环 境 《〈 人 参见 图 10- 
34) 。 





% erl 
Erlang (BEAM) emulator version 5.6.3 [source] [smp:2] [async-threads:0] 
[kernel-poll:falsel] 


Eshell v5.6.3 (abort with ^G) 

1> c(ping). <ping 模块 的 编译 
{ok,ping} 

2> ping:start(1666) . <ping 的 启动 
apong: pingpong 1666 























ping: pingpong 561 

pong:pingpong 566 

ping:pingpong 1 

pong:done 

3>init:stop(). < 环境 的 终止 
ok 














图 10-34 erl 的 对 话 环 


假设 pingpong 程序 保存 在 ping.erl 文件 里 。 首 先 用 c 命令 编译 。 为 了 
执行 Erlang， 必 须 将 源 代码 编译 成 字 市 码 解释 颖 BEAM 能 够 识别 的 格 
式 。 编 译 以 后 就 可 以 利用 ping.erl 中 声明 的 函数 。 每 次 修改 ping.erl 
后 ， 都 要 用 C 命令 再 次 装载 。 

执行 start 函数 以 后 ， 按 参数 指定 的 次 数 执行 pingpong 。pingpong 
完成 指定 次 数 以 后 ， 输 出 done 。 


当然 ， 不 经 过 erl 的 对 话 坏 境 ， 也 可 以 直接 启动 程序 (参见 图 10- 
35) 。 这 种 情况 下 ， 启 动 erlc 编译 器 ， 将 源 代码 直接 编译 成 字 节 码 ， 
然后 给 命令 加 选项 -noshell 启动 非 对 话 环 境 的 erl 。 


流 























% erlc ping.erl 

% erl -noshell -s ping main 1666 
pong: pingpong 1666 

ping: pingpong 561 

pong: pingpong 566 


ping: pingpong 1 
pong: done 








图 10-35 pingpong 程序 的 直接 运行 


这 种 情形 下 ， 从 ping 模块 的 main 函数 开始 执行 。 第 22 行 的 main 函数 
从 命令 行 的 参数 接受 循环 次 数 ， 并 担当 程序 执行 完成 后 解释 器 的 终止 处 
理 。atom_to_list 函数 将 从 号 名 变 为 字符 串 ，l1ist_to_integer 将 
字符 串 变 为 数值 。 男 外 ，init: stop 峭 数 结束 process。 


这 次 ， 为 了 这 道 例 题 ， 我 很 久 以 来 再 次 挑战 Erlang 编程 。 由 于 没有 循 
环 ， 不 习惯 以 及 送 消息 为 基本 的 编程 等 等 ， 沉 得 有 些 难受 。 还 有 ， 老 是 
记 不 住 Erlang 的 逗号 、 分 写 或 句号 该 如 何 分 开 使 用 ， 错 误 频 发 。 但 一 旦 
习惯 了 这 独特 的 编程 风格 ， 我 党 得 生产 效率 也 会 很 高 。 














10.4.6 ”Erlang 的 错误 处 理 





如 果 有 大 量 的 process， 就 总 会 有 因为 程序 错误 、 异 常数 据 输入 ， 还 有 
其 他 很 多 预测 不 到 的 理由 ， 导 致 process 异常 终止 。 正 在 进行 大 量 数据 
处 理 的 时 候 ， 总 是 想 吕 免 因 为 一 个 异常 而 将 全 部 处 理 作废 的 事情 。 对 于 
有 扩展 性 的 系统 ， 重 要 的 是， 即使 发 生 了 异常 事态 ， 也 不 至 于 全 体系 统 
g 停 止 。 


Erlang 中 ， 通 过 发 送 消息 来 通知 异常 终止 。 通 过 link 机 制 将 process 与 
process 链接 〈link) 起 来 。 被 链接 起 来 的 process 在 终止 之 前 ， 往 链接 
目标 发 送 消 恩 说 “我 要 死 了 ”。 收 到 消 恩 的 process 料理 死去 的 process 的 


后 事 


有 了 这 种 机 制 ， 使 得 Erlang 适合 于 构筑 抗 障碍 性 强 的 系统 。 这 不 蔡 让 人 
想起 Erlang 长 年 使 用 于 电话 交换 机 这 样 重要 领域 的 矣 人 业绩 。 


10.4.7 Erlang 的 使 用 场所 
Erlang 在 通常 的 文本 人 处理 中 并 不 怎么 快 ， 比 如 说 ， 用 Ruby 进行 的 处 


理 ， 全 部 移植 到 Erlang 上 去 ， 基 本 上 没什么 好 处 。Erlang 的 好 处 还 是 其 
扩展 性 。 对 于 多 个 处 理 并 列 执行 的 情况 ， 分 割 成 合适 的 Erlang process， 








能 够 发 挥 多 CPU 的 威力 。 


同样 的 多 任务 分 割 虽然 用 操作 系统 的 进程 或 线程 也 能 实现 ， 但 Erlang 的 
process 与 操作 系统 的 进程 或 线程 相 比 ， 能 够 轻 量 实现 (1 个 process 最 
小 只 耗费 300 字 节 ) ， 即 使 有 大 量 process 也 不 必 顾 虑 ， 尽 管 生成 就 是 
了 。 更 进一步 说 ，Erlang 设计 思想 不 用 process 连 基本 处 理 都 不 能 实 

现 ，process 分 割 在 某 种 意义 上 可 以 说 是 强制 性 的 ， 这 样 更 加 有 利于 发 
挥 语言 的 特长 。 


像 服务 器 端的 处 理 一 样 ，Erlang 特别 适合 于 对 大 量 的 请 求 进行 非 同步 处 
理 的 任务 。Erlang 在 20 世纪 80 年 代 就 已 经 诞生 ， 但 直到 最 近 才 变 得 受 
人 了 瞩目， 这 可 能 是 因为 最 近 发 现 了 它 适 合 于 现代 服务 器 端 程序 这 一 特点 
了 吧 。 














10.4.8 面 癌 Ruby 的 库 “Revactor>” 


进行 Actor Model 编程 ， 如 果 采 用 Erlang 这 样 独特 的 语言 ， 就 有 点 太 为 
难 了 。 因 为 学 习 新 的 语言 ， 再 移植 ， 是 要 花费 成 本 的 。 对 于 习惯 了 
Ruby 的 人 来 说 ， 如 果 能 够 用 平时 习惯 的 Ruby 来 进行 Actor Model 编 
程 ， 实 在 是 谢 天 谢 地 。 


能 够 满足 这 种 需求 的 是 面向 Ruby 的 Actor 库 Revactor。Revactor 的 目的 
是 为 Ruby 提供 Erlang 式 的 编程 。 使 用 Revactor 的 pingpong 程序 如 图 
10-36 所 示 。 








require 'revactor' 


1 

2 

3 def pingpong(name) 

4 loop do 

5 Actor .receive do |filter| 

6 filter.when(Case[Actor, Integer]) do |partner, count| 
7 
8 


if count == 

puts "#{name}:done" 
9 exit 
16 else 
11 if count % 5606 < 2 
12 puts "#{name}: pingpong #{count}" 
13 end 
14 partner << [Actor.current, count-1] 
15 end 


16 end 


21 ping = Actor.spawn {pingpong("ping")} 
22 pong = Actor.spawn {pingpong("pong")} 
23 pong “< [ping，ARGV[6].to i] 

24 Actor.reschedule 





图 10-36 ”使 用 Revactor 的 pingpong 程序 





将 图 10-36 与 图 10-33 中 的 Erlang 程序 相 比 ， 可 以 看 出 二 者 构造 几乎 相 
同 。Ruby 中 不 具备 的 receive 语句 和 模式 匹配 ， 我 们 使 用 代码 块 或 
filter 来 实现 。 我 认为 结构 上 是 仿造 Erlang。 如 果 说 区 别 ， 应 该 是 以 
下 这 些 吧 。 


。 送信 不 用 !， 而 是 用 << 运 算 符 。 
。 spawn 写成 代码 块 。 
。 receive 语句 换 成 Actor .receive 方法 。 


。 (Erlang 中 的 ) 模式 匹配 ， 在 Revactor 中 使 用 filter 和 Case 
《Case 是 模式 匹配 的 库 ) 。 


。 不 用 末尾 递归 ， 而 是 用 循环 。 


第 24 行 的 发 送 消息 后 ， 调 用 Actor.reschedule 方法 ， 明 确 地 将 控制 
传 给 其 他 Actor。 本 来 觉得 不 应 该 有 这 一 行 ， 但 我 手头 的 程序 ， 如 末 没 
有 这 一 行 ， 就 不 能 正常 运行 。 


这 里 虽 没 有 详细 说 明 ， 在 Revactor 中 ， 与 Erlang 一 样 ， 错 误 处 理 也 是 
以 及 送 消息 的 方式 来 实现 的 。 使 用 spawn_link 代 蔡 (Erlang 中 

的 ) spawn 来 生成 Actor 之 后 ，Actor 的 异常 终止 等 通过 发 送 消息 传递 
给 连接 的 Actor。 


Revactor 是 利用 Ruby 1.9 中 提供 的 Fiber 实现 的 。Fiber 是 在 明确 进行 上 
下 文 切换 时 的 用 户 级 线程 ， 有 时 也 被 称 为 协 程 〈co-routine) 。 所 以 ， 
Revactor 只 有 在 Ruby 1.9 上 才能 运行 。 从 个 人 角度 来 讲 ， 我 期 得 着 ， 像 




















Revactor 那样 利用 Fiber 实现 的 输入 输出 多 重 化 技术 将 成 为 Ruby 1.9 的 
杀手 级 应 用 。 


有 关 Revactor 的 信息 ， 请 参照 http://revactor.org/ 。Revactor 由 
RubyGems 提供 ， 用 下 述 命令 安装 。 


gem install revactor 


但 是 ， 正 如 刚才 所 述 ，Revactor 只 能 在 Ruby 1.9 中 运行 ，gem 命令 也 需 
1.9 版 中 执行 。 我 手头 上 的 1.9 版 gem 命令 是 以 gem 1.9 的 名 字 安 
装 的 。 





10.4.9 ”Revactor 的 应 用 场合 


Revactor 在 Ruby 中 可 以 像 Erlang 一 样 编程 ， 其 优点 是 可 以 同时 体验 
Ruby 的 好 处 及 Erlang 的 好 处 。 但 是 ，Revactor 中 Actor 的 实现 不 是 靠 
线程 ， 而 是 靠 Fiber。Erlang 的 目的 在 于 最 大 限度 地 利用 多 核 CPU， 而 
Revactor 并 不 适合 于 这 种 目的 。 


那么 ， 说 到 Revactor 的 最 大 优点 ， 应 该 是 能 够 在 等 待 文件 输入 输出 时 ， 
将 程序 的 停止 控制 在 最 小 程度 。 图 10-37 是 使 用 Revactor 进行 文件 输入 
输出 的 Echo Server。Echo Server 从 客户 端 接收 socket 连接 请 求 ， 然 后 
将 客户 端 传 过 来 的 东西 原封 不 动 地 返回 。 因 为 是 原封 不 动 ， 所 以 称 为 
Echo (回声 ) 。 











require “revactor 


1 

2 

3 HOST "localhost'" 
4 PORT = 4321 

5 
6 
7 
8 


# 用 指定 的 服务 器 和 端口 生成 新 的 接听 socket 
listener = Revactor::TCP.1isten(HOST，PORT) 
puts "Listening on # {HOST}:#{PORT}" 








16 # 开始 接受 连接 请 求 

11 loop do 

12 # 接受 连接 请 求 并 开始 新 的 Actor 
13 # 来 处 理 


14 Actor.spawn(listener.accept) do |sock| 





























15 puts "#{sock.remote addr}:#{sock.remove port} connected " 
































17 # 开始 回应 收 到 的 日 期 

18 loop do 

19 begin 

26 # 把 读 取 的 内 容 照 原样 输出 

21 sock.write sock.read 

22 rescue EOFError 

23 puts "#{sock.remote addr}:#{sock.remote port} disconnected" 
24 

25 # 像 普 通 的 Ruby 的 socket 一 样 ， 在 关闭 连接 时 中 断 
26 # {并 退出 现在 的 actor} 

27 break 

28 end 

29 end 

30 end 

31 end 




















图 10-37 使 用 Revactor 的 Echo Server 





这 个 Echo Server 有 两 个 重要 特点 。 第 一 ， 与 通常 的 socket 与 线程 相 
组 合 的 服务 器 相 比 ， 性 能 更 好 。 特 别 是 在 同时 连接 数 增加 时 ， 内 存 消耗 
量 和 应 答 性 能 优良 。 这 是 因为 与 线程 相 比 ，Actor 的 内 存 消 耗 量 和 上 下 
文 切换 的 成 本 较 低 。 


第 二 ， 尽 管 性 能 这 么 优良 ， 将 程序 改造 为 Revactor 式 ， 只 需要 很 少量 的 
修改 。 实 际 上 ， 与 通常 使 用 socket 和 线程 的 Echo Server 相 比 ， 
(Revactor 式 的 Echo Server) 不 同 点 仅 在 于 ; 








。 require 的 库 是 revactor ， 而 不 是 socket ; 


。 连接 用 的 socket class 是 Revactor: :TCP ， 而 不 是 TCPServer 


. 
9 


。 个 别 连 接 处 理 用 Actor.spawn ， 而 不 是 Thread .new 。 


Ruby 中 的 HITP 服务 器 Mongrel， 可 以 用 通常 的 线程 实现 ， 也 可 以 用 
Revactor Actor 实现 。 用 benchmark 对 二 者 进行 比较 ， 不 管 是 并 行程 度 
还 是 处 理性 能 ，Actor 都 要 好 。 而 且 ，【〔 线 程式 ) Mongrel 服务 器 变 为 
Revactor 式 ， 只 需要 几 行 的 变更 就 能 实现 。 详 细 请 参照 Revactor 参考 














书 。 
10.4.10 “ 另 一 个 库 Dramatis 


Dramatis 是 Ruby 中 男 一 个 Actor 库 。 函 数 型 语言 Erlang 不 支持 面 癌 对 

象 功 能 。 但 是 ， 某 种 程度 上 习惯 了 Erlang 编程 之 后 ， 以 process 代替 对 

象 ， 以 发 送 消 息 代 蔡 方 法 调用 ， 可 以 编 出 类 似 面 癌 对 象 的 程序 。 

另 一 方面 ， 用 Ruby 这 样 的 面 癌 对 象 语 言 来 实现 Actor 的 时 候 ， 即 使 用 

普通 对 象 来 实现 Actor， 也 不 可 避免 地 会 出 现 把 方法 调用 和 发 送 消息 这 

0 
“概念 混淆 ”。 


require 'dramatis/actor'" 





class PingPong 
include Dramatis::Actor 
def initialize name 
@name = name 
end 


def pingpong count, partner 

if count == 
puts "#{@name}: done" 

else 
if count % 566 == 6 || count % 566 == 

puts "#{@name}: pingpong #{count}" 

end 
release(partner).pingpong count-1, self 


PingPong.new("ping") 
PingPong.new("pong") 


.pingpong ARGV[6].to i, pong 





图 10-38 ”使 用 Dramatis 的 pingpong 程序 


Dramatis 中 ，Actor 也 是 以 对 象 方式 来 表现 的 。 为 了 让 对 象 称 为 Actor， 








需要 像 图 10-38 中 程序 的 第 4 行 那 样 ， 装 上 Drmatics::Actor.new 模 
块 。 已 经 存在 的 对 象 要 变 成 Actor 的 话 ， 就 像 下 面 这 样 : 


Dramatics::Actor.new (obj) 


返回 一 个 将 obj 指定 的 对 象 包 起 来 的 Actor。Dramatis 中 ， 方 法 调用 和 
发 送 消息 没有 区 别 。 第 24 行 的 PingPong 对 象 调用 pingpong 方法 ， 
这 是 通常 的 方法 调用 ， 执 行 完 成 之 后 ， 等 竺 返回 结果 ， 称 为 同步 调用 。 
但 是 ， 同 步调 用 不 能 实现 Actor 的 发 送 消息 。 要 实现 异步 调用 的 话 ， 需 
要 使 用 release 方法 。 


使 用 release 方法 ， 可 以 得 到 异步 调用 的 特别 对 象 。 使 用 这 个 对 象 的 
方法 调用 是 异步 执行 的 。 因 为 是 异步 调用 ， 返 回 结果 之 前 就 继续 执行 下 
面 的 程序 ， 方 法 的 返回 值 被 扔 挥 。 


除了 release ，Dramatis 还 另外 提供 等 候 结 果 的 future 方法 。 用 
release 调用 方法 时 ， 完 全 无 视 异 步 执 行 的 结果 ， 但 用 future 可 以 在 
执行 之 后 得 到 返回 结果 。 想 使 用 future 得 到 执行 结果 时 ， 在 方法 执行 
完成 之 前 ， 程 序 处 于 阻塞 (block) 状态 ， 等 待 方法 执行 的 完成 。 这 是 
一 种 看 起 来 像 通 常 执行 一 样 而 实现 了 并 行 化 的 技巧 。 


将 Dramatis 和 Erlang 或 Revactor 等 别 的 Actor 处 理 系 统 比 较 一 下 ， 发 
现 一 个 明显 的 特征 是 ， 方 法 调用 和 发 送 消息 融合 得 非常 好 。 与 其 他 
Actor 处 理 系统 相 比 ，Actor 是 对 应 于 线程 ， 实 现 并 行 处 理 的 主体 这 一 感 
觉 虽 然 变 淡 了 ， 但 感觉 到 普通 对 象 也 能 够 作为 Actor 来 运行 ， 真 的 让 人 
感觉 很 畅快 。 


Dramatis 不 是 使 用 Fiber， 而 是 使 用 Ruby 的 线程 实现 的 ， 所 以 在 Ruby 
1.8 中 也 能 运行 (Dramatis 也 有 Python 版 ) 。 但 是 ， 至 少 在 写本 书 时 在 
我 尝试 使 用 的 范围 内 ， 性 能 仍 比 不 上 Revactor〈 而 Revactor 比 不 上 
Erlang) 。 虽 然 如 此 ， 作 为 Actor 的 一 种 实现 ，Dramatis 仍然 是 一 种 很 
有 意思 的 答 试 ， 我 对 其 前 景 充满 期 符 。 


米 * * 






































以 上 介绍 了 3 种 支持 Actor Model 的 编程 技术 Erlang、Revactor 和 


Dramatis。 使 用 独立 语言 实现 Actor 的 Erlang， 用 Ruby 提供 的 Erlang 的 
功能 ， 试 图 取 二 者 之 长 的 Revactor， 将 Actor 与 对 象 融合 而 开辟 Actor 
Model 新 领域 (感觉 是 这 样 ) 的 Dramatis。 各 自 思 想 的 不 同 ， 实 现 特征 
也 不 同 ， 这 些 都 频 有 意思 。 


我 想 今 后 的 服务 器 端 编程 ， 能 够 处 理 大 量 请 求 的 Actor Model 会 受 人 了 瞩 
目 。 说 老实 话 ，Ruby 版 的 Actor 库 的 进展 和 性 能 都 还 差 得 很 远 ， 想 想 将 

2 
J ID|。 


两 个 法 则 


一 个 是 帕 累 托 法 则 。 这 一 法 则 本 来 是 经 济 学 中 表示 全 体 数 值 的 大 部 

分 ， 是 由 构成 全 体 的 少 部 分 因素 所 产生 的 ， 现 在 被 广泛 应 用 到 各 种 各 
样 的 领域 。 帕 累 托 法 则 通常 以 “80:20 法 则 ”(80% 的 数值 由 20% 的 因 

素 产 生 ) 这 种 变形 形式 来 应 用 。 


性 能 优化 也 适用 这 一 法 则 。 也 即 程序 执行 时 间 的 80% 《或 者 更 多 ) ， 
都 花费 在 20% 的 代码 上 。 上 反 过 来 说 ， 不 属于 这 20% 的 部 分 ， 不 管 怎 
么 优化 ， 都 不 能 给 最 终结 末 融 来 多 大 页 献 。 


性 能 优化 是 一 个 花费 成 本 的 工作 ， 必 须 在 所 投入 的 成 本 和 得 到 的 结果 
之 间 做 出 平衡 。 


在 决定 投入 成 本 与 性 能 ) 的 平衡 时 ， 幅 累 托 法 则 是 个 很 有 用 的 法 
则 。 主 要 的 意思 是 ， 在 确切 测定 之 后 ， 再 制定 改善 计划 。 


另 一 个 是 摩尔 法 则 ， 即 大 规模 集成 电路 〈LSI) 中 的 晶体 管 数 每 18 个 
月 翻 一 番 。 这 个 经 验 法 则 是 英特尔 公司 前 总 裁 戈 登 :摩尔 于 1965 年 发 
表 的 论文 中 介绍 的 。 


大 规模 集成 电路 的 集成 度 大 体 上 与 CPU 的 性 能 及 内 存 容量 直接 相 
天 ，40 多 年 来 ， 计 算 机 的 性 能 几乎 呈 指 数 增长 ， 这 真是 让 人 难以 置 
信 。 半 个 世纪 以 来 ， 计 算 机 的 进步 与 发 展 大 体 上 齐 守 摩尔 法 则 ， 这 样 
说 并 不 夸张 。 


但 是 ， 摩 尔 法 则 也 开始 被 阴影 所 笼 单 ， 因 为 快要 接近 物理 法 则 的 极限 
了 。40 多 年 来 ， 随 着 大 规模 集成 电路 集成 度 的 提高 ， 日 常生 活 中 意 




















识 不 到 的 光 的 速度 、 原 子 大 小 等 已 经 成 为 问题 了 。 最 近 几 年 ， 有 时 感 
党 好 像 CPU 时 钟 频率 的 提高 处 于 停滞 不 前 的 状态 ， 就 是 这 个 原因 。 


到 现在 为 止 ， 受 惠 于 摩尔 法 则 ，CPU 的 处 理 速度 大 幅 变 快 ， 软 件 也 因 
此 而 大 大 加 速 。 软 件 开 用 人 员 什 么 都 不 用 做 ， 只 要 换个 计算 机 ， 就 目 
动 实 现 了 提速 。 


但 是 ， 洱 福 的 时 代 束 要 结束 了 。 单 个 CPU 的 提速 已 经 接近 极限 。 而 
往 一 个 芯片 内 嵌入 多 个 CPU 的 多 CPU 或 者 多 核 将 成 为 以 后 的 发 展 方 
问 。 今 后 ， 只 有 能 够 灵活 利用 多 个 CPU 进行 任务 分 割 的 软件 ， 才 能 
胖 受 摩尔 法 则 的 恩惠 ， 从 而 变 得 更 加 高 速 。 


在 未 来 高 速 软件 的 开发 中 ， 对 这 两 个 法 则 的 认识 会 越 来 越 重 要 吧 。 





和 大 大 > 口 二 让 i 

第 11 章 程序 安全 性 

11.1 程序 的 漏洞 与 攻击 方法 

先 说 明 一 下 什么 是 软件 的 漏洞 吧 。 其 更 文 是 vulnerability， 经 常 使 用 片 

假名 的 开 行业 之 所 以 也 用 汉字 来 表示 它 ， 是 因为 这 个 词 的 片 假名 表示 
< 谋 难 > 且 难 以 记忆 


所 谓 漏 洞 ， 是 指 让 软件 发 生意 外 动作 的 可 能 性 。 软 件 的 漏洞 ， 根 据 严 重 
程度 和 紧急 程度 的 不 同 ， 可 以 分 为 多 种 。 


其 中 ， 紧 急 程 度 低 的 ， 仅 仅 看 做 程序 错误 来 处 理 就 行 了 。 但 是 紧急 程度 
高 的 ， 必 须 作 为 最 优先 问题 来 解决 。 一 听 说 出 了 安全 性 程序 错误 ， 有 人 
束 容 易 紧 张 得 不 行 ， 事实 上 要 分 清 严 重 程 度 ， 冷 静 应 对 。 
11.1.1 4 种 软件 漏洞 

漏洞 从 大 的 方面 分 为 以 下 4 种 。 

1. Dos 攻击 

2. 信息 泄漏 

3. 权限 夺取 

4. 权限 升格 

首先 ， 第 1 种 是 DoS (Denial of Service) 攻击 ， 也 称 拒绝 服务 攻击 ， 是 
站 妨碍 软件 正常 运行 (服务 的 执行 ) 的 网 络 攻 击 手 段 。 能 够 引起 软件 异 
前 终止 的 程序 错误 ， 可 以 说 全 部 部 是 引发 DoS 攻击 的 安全 性 程序 错 
误 。 

即使 发 生 了 异常 终止 ， 很 多 软件 也 都 不 会 引起 严重 问题 。 比 如 说 ， 读 入 


损坏 的 数据 ， 即 使 引起 编辑 器 软件 录 秆 终止 ， 也 不 会 给 别人 带 来 及 烦 。 
但 是 ， 对 于 有 些 软件 ， 可 能 后 果 会 很 严重 。 如 宋 读 入 内 容 有 问题 的 邮 














件 ， 而 导致 邮件 系统 整体 骨 尝 ， 那 问题 可 就 严重 了 。 


但 软件 即使 没有 漏洞 ， 也 可 能 从 外 部 受到 DoS 攻击 。 以 前 ， 我 所 在 的 
公司 管理 的 服务 器 ， 突 然 有 一 天 不 响应 请 求 了 。 调 查 后 才 知 道 ， 从 某国 
器 同时 、 反 复 进 行 重新 载 入 (reload) 这 种 单纯 攻击 (Internet Explorer 
的 重新 载 入 键 是 FE5， 所 以 也 称 为 FE5 攻击 ) ， 使 服务 器 负荷 变 得 过 重 。 
结果 ， 只 要 将 有 问题 的 IP 地 址 进行 过 滤 ， 并 增强 服务 器 功能 ， 问 题 就 
可 以 解决 了 。 这 种 攻击 想 从 根本 上 解决 是 很 困难 的 。 


第 2 种 信息 泄漏 ， 是 指 不 愿 公 开 的 信息 被 公开 了 。 比 如 用 户 名 被 公开 ， 
或 者 密码 被 看 到 等 问题 。 


言 恩 泄漏 相对 来 说 是 一 个 重大 问题 ， 但 根据 泄漏 信息 的 种 类 ， 其 严重 程 
度 也 是 不 一 样 的 。 特 别 是 有 关 金 钱 或 者 个 人 信息 被 泄漏 的 时 候 ， 处 理 不 
慎 的 话 ， 可 能 会 发 展 成 诉讼 官司 。 以 前 也 曾 有 过 这 种 案例 ， 有 人 因 访 问 
和 
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11.1.2” 因 权限 被 历 取 而 成 为 重大 问题 


第 3 种 权限 夺取 ， 是 指 村 取 软 件 控制 权 ， 随 心 所 欲 地 操纵 计算 机 。 如 果 
权限 被 村 取 了 ， 计 算 机 惑 成 为 入 侵 者 为 所 欲 为 的 工具 了 。 也 就 是 说 ， 只 
要 是 在 该 软件 所 具有 的 权限 范围 以 内 ， 比 如 文件 的 写 入 、 删 除 ， 等 等 ， 
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但 是 ， 软 件 如 果 只 是 用 一 般 用 户 的 权限 来 执行 ， 则 能 够 避免 最 恶性 的 伤 
害 。 一 般 用 户 所 能 够 做 的 操作 有 限 。 虽 说 如 此 ， 但 或 许 会 有 人 允许 第 4 种 
权限 升格 这 样 的 漏洞 ， 所 以 不 能 过 于 乐观 。 所 谓 权 限 升 格 ， 是 指 和 革 取 了 
一 般 用 户 权限 的 入 侵 者 ， 获 取 了 管理 者 权限 。 


以 前 ，Ruby 的 主页 网 站 www.ruby-lang.org 受到 过 入 侵 ， 当 时 是 ssh 的 
人 
妆 行 了 


1 ssh 是 Secure Shell 的 缩写 ， 是 在 远程 操作 计算 机 时 ， 通 过 加 密 通信 而 执行 的 程序 。 
































导致 将 所 有 文件 递归 删除 的 恶果 〈 即 各 级 目录 中 的 文件 都 被 删除 ) 。 佑 
计 是 个 犯罪 狂 干 的 。 


结 末 ， 操 作 系统 的 运行 所 必需 的 文件 被 删除 后 ， 递 归 删 除 惑 停止 了 ， 但 
有 几 个 文件 却 永 远 失 去 了 。 笠 亏 ， 我 的 重要 文件 都 留 有 备份 ， 但 因为 没 
能 确定 最 初 入 侵 时 间 ， 为 了 验证 备份 的 文件 是 否 被 恶意 改变 ， 还 是 化 了 
相当 长 的 时 间 。 现 在 回头 看 ， 这 仍然 是 很 痛心 的 回忆 。 

但 是 ， 删 除 所 有 文件 这 种 单纯 的 罪行 还 算 好 的 。 最 近 有 的 入 侵 者 为 了 不 
让 人 察觉 到 ， 上 自己 将 入 侵 的 六 迹 抹 去 ， 要么 偷偷 潜伏 下 来 盗 取 重 要 信 
恩 ， 要 么 将 入 侵 的 计算 机 用 作 犯 罪 ， 真 古越 来 越 恶 务 了 。 


11.1.3 ”安全 问题 的 根源 

这 样 的 安全 问题 之 所 以 会 产生 ， 而 且 还 在 不 断 出 现 ， 也 是 有 原因 的 。 
安全 问题 产生 的 根源 ， 在 于 运行 软件 的 人 《权限 所 有 者 ) 和 利用 软件 的 
人 是 不 同 的 。 早 期 的 软件 ， 利 用 者 和 软件 执行 权限 是 一 致 的 ， 这 种 时 候 
不 会 发 生 问 题 。 即 便 软 件 有 程序 错误 ， 程 序 错误 的 受害 人 也 仅 限 于 本 
人 ， 说 到 底 还 是 自己 负责 。 

安全 问题 有 3 种 情况 。 

1. 恶意 软件 

2. etuid/setgid 

3. 服务 占 

第 1 种 恶意 软件 ， 是 指 在 程序 本 身 里 面 植 入 了 某 种 有 恶意 的 代码 。 几 乎 
所 有 情况 下 ， 软 件 的 开发 人 员 和 使 用 者 是 不 同 的 ， 这 样 怀 疑 起 来 ， 范 围 


可 就 大 了 。 其 中 ， 有 被 称 为 “ 特 党 伊 木马 ”的 下 了 套 的 软件 。 所 以 ， 通 过 
邮件 发 送 来 的 不 明 融 里 的 程序 ， 一 般 都 不 要 执行 。 






































第 2 种 setuid (set userid) ， 是 指 执行 的 程序 以 所 有 者 权限 进行 动作 。 
setgid (set group id) 也 用 同样 的 方法 来 设 定 组 权限 。 


比如 ， 想 共 至 游戏 软件 的 蜗 分 记录 文件 ， 但 义 想 避 免 蜗 分 记录 文件 被 随 
便 更 改 。 首 先 把 更 改 高 分 记录 的 程序 的 所 有 者 与 高 分 记录 文件 的 所 有 者 
设 定 成 一 样 ， 然 后 只 要 设 定 程序 的 setuid， 该 程序 就 能 以 高 分 记录 文件 
的 所 有 者 权限 来 执行 。 这 是 UNIX 系列 操作 系统 一 直 以 来 的 做 法 。 


这 种 做 法 的 好 处 是 ， 一 方面 根据 权限 对 文件 进行 保护 ， 男 一 方面 根据 需 
要 可 以 将 保护 撤销 。 但 利用 软件 的 人 会 有 不 同 的 执行 权限 ， 容 易 成 为 权 
ee 实际 上 ，setuid 的 缺点 已 经 变 得 比 优点 更 突出 ， 现 在 几 
不 了 


11.1.4 “守护 神 ” 引 起 的 问题 


第 3 种 是 服务 器 ， 这 个 词 本 身 有 很 多 意思 ， 这 里 是 指 为 了 提供 服务 而 党 
驻 型 的 软件 。UNIX 中 ， 为 了 将 这 种 软件 和 服务 器 硬件 本 身 (server) 区 
别 开 来 ， 称 之 为 后 台 服 务 (daemon) 。daemon 并 不 是 恶魔 

(demon) ， 而 是 鬼神 或 守护 神 的 意思 。 


在 Linux 等 UNIX 系列 操作 系统 中 ， 处 理 邮件 的 mailer daemon， 调 整 时 
刻 的 ntp daemon 等 ， 有 着 为 数 众多 的 后 台 服 务 在 运行 。 阿 由 奇 

CApache) 的 HITP server 也 是 一 种 后 台 服 务 。 现 在 数 一 数 ， 我 的 
Debian (GNU/Linux〉 机 器 中 ， 有 近 100 种 后 台 服 务 在 运行 。 


这 些 后 台 服 务 ， 基 本 上 都 是 受理 经 由 socket* 而 来 的 请 求 。 执 行 它 所 提 
供 的 服务 ， 然 后 将 结果 经 由 socket 返回 。 也 惑 是 说 ， 几 乎 所 有 的 情况 ， 
利用 者 (发 出 请 求 者 ) 和 执行 者 (daemon 的 执行 权限 者 ) 都 是 不 同 
的 。 这 种 软件 大 有 了 漏洞 ， 会 引起 DOS 问题 和 权限 夺取 问题 等 。 


2 socket 是 UNIX 系列 操作 系统 中 ， 进 程 间 通 信 的 一 种 机 制 。 

用 户 彼此 之 间 都 互相 认识 ， 谁 都 不 会 有 恶意 的 时 代 ， 早 就 过 去 了 。 现 
在 ， 世 界 上 充满 了 和 恶作剧 者 和 奶 求 一 己 之 利 的 不 法 之 徒 。 当 然 从 整体 上 
看 ， 这 些 行为 不 端 者 只 是 少数 ， 但 绝 不 能 无 视 。 管 理 者 不 妨 设想 ， 给 后 
台 服 务 的 所 有 输入 ， 都 是 来 自 恶 意 用 户 。 


现在 的 软件 ， 很 多 都 是 通过 互联 网 来 提供 。 通 过 互联 网 提供 的 服务 ， 基 
























































本 上 与 通过 后 台 服 务 提供 的 服务 相同 ， 同 样 有 必要 设想 并 不 是 所 有 的 输 
入 都 能 够 信任 。 


正 是 通过 互联 网 提供 的 软件 ， 使 得 安全 问题 最 近 成 为 热 议 的 诬 题 。 因 为 
互联 网 上 的 软件 能 够 简单 地 提供 服务 ， 门 槛 很 低 ， 利 用 者 与 执行 权限 者 
不 同 ， 从 而 很 容易 引起 安全 问题 。 

11.1.5 多样 化 的 攻击 手段 


对 软件 漏洞 的 攻击 有 很 多 种 。 对 软件 开发 者 的 程序 错误 (或 者 琉 忽 ) 的 
攻击 ， 有 代表 性 的 有 以 下 5 种 。 


缓冲 区 溢出 
整数 溢出 
跨 站 点 脚本 攻击 (XSS) 
SQL 注入 
跨 站 点 伪造 请 求 “CSRF) 


并 不 是 说 这 些 就 是 全 部 ， 我 想 今 后 攻击 的 种 类 还 会 增加 。 以 下 简略 说 明 
这 些 安全 攻击 的 内 容 和 应 对 方法 。 

11.1.6” 绥 冲 区 次 出 

绥 冲 区 溢出 是 经 常 被 提起 的 攻击 事件 。 这 是 指 同 固定 长 的 缓冲 区 
Cbuffer) 3 输入 了 比 假定 的 长 度 要 长 很 多 的 数据 ， 使 程序 异常 终止 。 或 
者 是 更 改 堆 栈 的 跳 转 地 址 ， 动 持 程 序 。 

3 为 保存 数据 而 确保 的 内 存 区 域 。 


看 看 图 11-1 中 的 程序 。 这 个 C 程序 中 使 用 gets 函数 ， 从 标准 输入 该 入 
一 行 ， 存 入 缓冲 区 《作为 参数 传 过 来 的 数组 ) 。 


























void 
danger () 
{ 





char buf[1024]; 
while (gets{buf) != NULL) 
{ 

printf("%s", buf); 





图 11-1 有 缓冲 区 溢出 危险 的 程序 


这 个 程序 有 一 个 假定 ， 那 就 是 “1 行 的 长 度 肯定 小 于 1024 字 节 ”。 确 实 ， 
几乎 所 有 的 情况 下 ， 这 个 假定 都 是 成 立 的 。 但 并 不 保证 对 所 有 的 情况 都 
成 过 。 当 输入 者 不 被 信任 的 时 候 ， 这 个 假定 就 会 出 卖 你 。 当 这 个 程序 读 
入 的 输入 行 长 度 达 到 1024 字 节 以 上 时 ， 就 会 号 入 数组 buf 末端 之 后 的 
内 存 〔 洲 出 ) ， 程 序 因而 异常 终止 。 


如 果 仅 仅 是 异常 终止 ， 问 题 还 不 大 。 最 坏 的 情况 是 程序 的 控制 权 被 夺 
走 。 之 所 以 这 么 说 ， 是 因为 C 语言 中 ， 局 部 变量 是 放 在 系统 堆栈 上 的 ， 
往 系统 堆栈 上 以 茶 种 特定 规格 写 入 ， 就 有 可 能 更 改 函 数 的 返回 地 址 。 


为 了 避免 被 坏人 利用 ， 这 里 就 不 详细 说 明了 。 曾 经 流行 过 一 种 蠕虫 ， 通 
过 将 能 够 从 外 部 进行 操作 的 代码 写 入 缓冲 区 ， 使 CPU 误 认为 已 经 从 机 
数 返 回 ， 在 返回 地 址 处 启动 shell。 


像 这 里 介绍 的 gets 一 样 ，C 的 库 函 数 由 于 历史 原因 ， 虽 然 接 受 数组 ， 
但 残留 下 一 些 并 不 进行 长 度 检查 的 函数 〈 假 定数 组 有 足够 长 度 来 容纳 数 
据 ) 。 除 了 gets 之 外 ， 还 有 sprintf ，getwd 等 。 现 在 的 连接 器 
Ginker， 将 几 个 程序 连 起 来 的 软件 ) 很 聪明 ， 在 编译 市 有 gets 
、getwd 这 种 有 明显 缺点 的 函数 的 程序 时 ， 能 发 出 警告 。 这 些 函 数 有 指 
定数 组 长 度 的 “更 好 的 蔡 代 函数 ”， 推 荐 使 用 这 些 蔡 代 函 数 〈 参 见 表 11- 
1) 。 


表 11-1 危险 的 C 函 数 和 替代 函数 





























sprintf snprintf 








字符 串 格式 化 








本 来 ， 使 用 C 那 种 连 数组 长 度 都 不 检查 的 语言 ， 可 以 说 就 表 定 会 产生 问 








题 。 泣 亏 ， 像 Ruby 这 样 的 高 级 语言 ， 语 言 处 理 系 统 上 自动 分 配 内 存 ， 可 
以 不 使 用 固定 长 的 缓冲 区 。 使 用 更 高 级 的 语言 ， 可 以 从 缓冲 区 溢出 问题 
中 解放 出 来 。 但 由 于 速度 上 的 考虑 ， 不 少 人 还 会 开发 C 语言 的 CGI4 及 
Daemon 程序 等 ， 使 用 时 要 多 加 注意 。 


4 Common Gateway Interface〈 公 共 网 关 接 口 ) 的 缩写 ， 在 Web 服务 器 上 执行 程序 的 接口 。 用 这 
个 接口 执行 的 程序 ， 称 为 CGI 程序 。 


11.1.7 ”整数 溢出 
整数 洲 出 与 缓冲 区 溢出 相似 ， 但 它 是 更 难 被 发 现 的 问题 。 


请 看 图 11-2 的 C 程序 。 这 里 所 示 的 函数 ， 用 malloc 函数 分 配 了 一 个 
大 小 为 指定 结构 体 ?n 倍 的 内 存 空间 。 


5 把 程序 中 使 用 的 数据 集中 定义 在 一 起 的 结构 。 



























































void* 
malloc elements (size t esize, size 七 n) 
{ 

return malloc (esize * n); 因 舍 入 而 
} 变 小 了 


图 11-2 有 整数 溢出 问题 的 C 程序 


这 看 起 来 是 很 简单 的 一 个 函数 ， 好 像 没有 任何 问题 ， 但 实际 上 却 隐藏 者 
一 个 很 暴 烦 的 问题 。 

C 等 很 多 的 语言 ， 整 数 只 能 表示 一 定 范 围 内 的 数 。 比 如 ， 无 符号 32 位 
二进制 ) 整数 能 表示 的 范围 是 0 到 42 亿 。 超 过 此 范围 ， 束 会 发生 海 
出 ， 也 不 发 警告 就 将 数值 含 入 。 


那么 ， 再 看 一 遍 图 11-2 中 的 函数 ，n 虽然 在 size_ 的 范围 之 内 ， 但 当 
esize * n 超越 了 size t 的 范围 时 ， 就 会 发 生 问 题 。 


假设 size tt 是 32 位 无 符号 整数 ，esize 是 32。 这 里 假设 给 了 n 一 个 














值 ，134500000。 


esize = 32 
n = 134566666 
esize * n = 4364666668 (本 来 的 值 ) 








这 个 结果 超越 了 32 位 整数 的 范围 ， 超 出 的 位 被 无 视 。C 语言 的 计算 结 
果 就 成 为 


esize * n = 9632764 (32 位 舍 入 ) 


9032704 字 节 ， 也 就 是 9MB， 对 于 现在 的 计算 机 来 说 ， 并 不 算 大 。 这 里 
毫 无 疑问 ，malloc 会 分 配 一 个 9MB 的 内 存 空间 ， 并 将 其 返回 。 


应 用 程序 那 边 本 打算 分 配 一 个 大 得 多 的 内 存 空间 ， 结 采 只 分 配 了 
9MB。 这 样 造 成 的 结果 就 是 ， 写 入 的 数据 超越 了 所 分 配 的 空间 ， 最 终 会 
导致 程序 异常 终止 ， 发 生 不 测 。 


malloc 不 分 配 堆栈 空间 ， 难 以 友 生 前 面 所 述 的 因 缓冲 区 淤 出 而 导致 的 
权限 夺取 问题 ， 但 不 敢 断 定 说 ， 绝 对 不 会 被 恶 用 。 


想 要 避免 整数 溢出 ， 好 像 很 麻烦 。 像 图 11-3 所 示 的 那样 ， 需 要 注意 检 
查 计算 结果 是 否 在 整数 范围 内 。 














void* 
malloc_elements (size_t esize, size_t n) 
{ 
size t len = esize * n; 
LEP(m I Oe ealze = len/ nn) 
return NULL; 


) 检查 除 算 后 是 否 
return malloc (esize * n); 返回 原来 的 数 
} 


图 11-3 禹 整数 淤 出 检查 的 C 程序 


顺便 说 一 下 ，malloc 函数 由 于 某 种 原因 ， 分 配 内 存 失 败 的 话 ， 就 返回 
NULL 。 但 很 多 程序 都 假定 malloc 不 失败 ， 肯 定 返回 所 分 配 的 内 存 。 


Ya 二 村 PT 
这 一 点 需要 注意 。 





这 个 问题 通过 使 用 Ruby 这 样 的 高 级 语言 可 以 解决 。Ruby 的 整数 计算 ， 
没有 32 位 溢出 这 一 限制 " 。 男 外 ， 内 存 分 配 不 是 由 用 户 直 接 进行 ， 内 部 
分 配 都 要 经 过 严格 检查 。 所 以 ， 只 要 使 用 Ruby， 与 整数 洲 出 就 不 沾 
过 

6 严格 来 说 ， 整 数 溢出 发 生 以 后 ， 自 动 切换 到 多 倍 长 整数 去 计算 。 











11.1.8 SQL 注入 

SQL 注入 是 对 外 部 的 输入 检查 不 充分 时 所 产生 的 典型 问题 。 

利用 关系 数据 库 的 程序 ， 使 用 SQL 与 数据 库 进 行 交互 。 这 时 ， 如 果 稀 
里 糊涂 地 将 外 部 输入 原封 不 动 地 写 入 SQL 语句 里 ， 这 样 做 成 的 程序 有 
可 能 允许 对 数据 库 进 行 预想 外 的 操作 。 


这 里 介绍 一 下 漫画 网 站 XKCD 里 的 一 个 SQL 注入 的 漫画 (参见 图 11- 
4) ， 对 日 翻译 成 如 下 。 


A WEBCOMIC OF ROMANCE, 
SARCASM, MATH, AND LANGUAGE. 


EXPLOITS OF A MOM 





DEAR -DID HE | DID Yo REALLY 
YOUR SON 


























图 11-4 漫画 网 站 XKCD 登载 的 SQL 注入 的 四 幅 漫 画 “ 妈 妈 的 安全 攻击 ，”URL 是 
http://xkcd.com/327/ 


第 1 幅 : (电话 中 ) 这 里 是 您 儿子 的 学 校 ， 我 们 的 计算 机 出 了 点 儿 问 


题 。 《学校 ) 


人 天 哪 ， 他 打破 什么 了 吗 ? (妈妈) 从 东 种 意义 上 说 ， 是 。 (学 
交 ) 


第 3 幅 : 您 儿子 果真 叫 “Robert);DROP TABLE Students;--” 吗 ? (学 校 ) 





是 啊 ， 我 们 叫 他 “LITTLE BOBBY TABLES”。 (妈妈 ) 


第 4 幅 ; 这 下 可 好 ， 我 们 丢失 了 今年 的 学 生 记 录 。 你 满意 了 吧 ? (学 
校 ) 


我 希望 你 们 能 学 会 数据 库 的 输入 检查 。《 妈 妈 ) 


对 于 不 知道 SQL 的 人 ， 需 要 额外 作 些 说 明 。 在 插入 数据 的 时 候 ，SQL 
用 如 下 的 INSERT 语句 。 








INSERT INTO 表 名 
(' 属 性 1' ， ' 属 性 2 
VALUES (' 值 1 ，， 











现在 ， 要 输入 BOBBY TABLES 的 数据 时 ， 单 纯 将 字符 串 填 进 
去 ，INSERT 语句 就 变 成 如 下 的 样子 。 
INSERT INTO Students 

(' 姓 ' ，' 名 ' ) 

VALUES ('Smith' , 'Robert');DROP TABLE Students;--') 











本 来 ， 从 Robert 开始 直到 “--” 为 止 都 应 当 是 名 字 ， 但 名 字 中 会 

有 ”“”，INSERT 语句 到 此 结束 ， 分 号 之 后 接 看 义 执 行 了 DROP TABLE 
语句 〈 数 据 库 删除 ) 。“--” 是 SQL 中 注释 的 开始 ， 剩 下 的 “)? 部 分 ， 作 
为 注释 而 被 忽略 。 用 小 孩子 的 名 字 对 学 校 的 系统 进行 了 SQL Injection， 
真是 个 超级 黑客 妈妈 。 


本 来 ， 从 外 部 的 输入 不 能 原封 不 动 填 入 到 SQL 语句 中 去 。 因 为 填 入 的 
文字 中 可 能 含有 对 SQL 语句 有 某 种 意义 的 文字 。 


SQL 可 以 由 外 部 间接 赋予 参数 来 执行 的 功能 。 比 如 ，SQL 语句 写成 


INSERT INTO Students 
(' 姓 ' 。 2 ) 
VALUES (?, ?) 








名 和 姓 可 以 从 外 部 输入 ， 应 该 不 会 发 生 同 样 问题 吧 。 


因 对 外 部 输入 检查 得 不 到 位 所 导致 的 问题 ， 不 光 有 SQL 注入 ， 在 
shell 和 html 中 同样 会 发 生 。 


11.1.9 ”Shell 注入 
Shell 注入 与 SQL 注入 原理 相同 。 


System("1s #{input}") 


上 上面 的 程序 中 ， 调 用 shel11 的 时 候 ， 如 果 输 入 input 的 值 是 


data; rm -rf / 


数据 就 可 能 会 整个 丢失 。 

从 外 部 的 输入 ， 如 果 不 进行 检查 就 不 能 传递 给 system 等 危险 的 函数 ， 
这 一 点 一 定 要 特别 注意 。 

为 了 从 一 定 程度 上 检查 出 这 类 问题 ，Ruby 和 Perl 中 有 “污染 检查 ” 功 
给 外 部 输入 的 数据 加 上 “污染 记号 ”， 禁 止 对 字符 串 进行 危险 的 操 
Ruby 的 污染 检查 ， 是 在 命令 行 参 数 里 附 上 -选项 ， 或 者 是 给 程序 中 的 
全 局 变量 $SAFE 赋值 为 1。$SAFE 的 值 表示 安全 级 别 〈 人 参见 表 11- 

2) 。 

表 11-2 ”安全 级 别 与 意义 


安全 级 别 | 意 义 








受到 了 污染 (默认 值 ) 














程 及 文件 的 危险 操作 
3 生成 的 全 部 对 象 都 被 污染 


























禁止 变更 全 局 信息 





安全 级 别 从 0 (默认 值 ) 开始 到 4 为止 。 实 际 利用 的 是 0、1、4 这 3 个 
值 。0 是 外 部 的 输入 没有 信赖 性 问题 的 程序 ，1 是 CGI 类 的 外 部 输入 需 
要 注意 的 程序 ，4 用 于 不 可 信赖 的 代码 。 级 别 4 不 在 我 们 讨论 的 范围 。 
如 果 将 安全 级 别 设 为 1 以 上 ， 对 于 上 述 的 system 调用 : 

。 input 是 外 部 输入 《被 污染 ) ; 

。 input 里 舱 入 的 字符 串 也 被 污染 ; 

。 systenm 接受 受 污染 的 字符 串 ， 产 生 错 误 。 


所 以 ， 在 成 为 严重 问题 之 前 ， 实 际 已 产生 了 错误 。 像 CGI 这 种 输入 不 
可 信赖 的 程序 ， 推 荐 在 任何 时 候 都 要 将 安全 级 别 设 为 1。 


但 是 ， 有 的 Web 应 用 程序 框架 对 $SAFE 的 应 对 不 够 充分 ， 在 安全 级 别 0 
以 外 就 不 运行 了 。 这 些 框架 一 定 得 改善 。 


11.1.10” 跨 站 点 脚本 攻击 


路 站 脚本 攻击 与 SQL 注入 和 Shell 注入 一 样 ， 也 是 因为 将 输入 值 原封 不 
动 地 放 在 输出 值 内 而 引起 的 问题 。 


比如 说 ， 做 了 一 个 Web 公告 板 ， 如 果 用 户 输入 中 含有 HTML 标签 
(tag) ， 就 可 能 会 出 现 违反 公告 板 设置 者 的 意图 ， 随 便 租 入 图 像 ， 或 
者 家 入 意 想 不 到 的 链接 之 类 的 问题 。 从 这 个 观点 来 说 ， 或 许 应 该 称 之 为 
HTML 注入 。 


而 且 ，HTML 中 可 能 夹杂 着 JavaScript， 这 样 问题 就 更 贱 烦 了 。 因 为 用 
JavaScript， 程 序 能 在 客户 端 执行 。 如 果 使 用 JavaScript， 可 以 做 各 种 恶 
作 剧 ， 比 如 : 

弹出 窗口 ; 

。 操作 男 面 的 组 成 元 素 ; 








。 访问 履 历 。 
为 了 防止 这 类 事情 发 生 ， 将 用户 输入 放 入 HIML 之 前 ,一定 别 忘 了 检 
二 
cgi.rb 提供 了 CGI.escape 方法 (参见 图 11-5) ， 可 以 用 来 对 HTML 
进行 转 义 处 理 〈 特 殊 字 符 的 变换 ) 。 


<$=h req.params['input'] $%> 
puts CGI .escapeHTML('test<SCRIPT Language=JavaScript>alert ("Hello");</SCRIPT>') 
# => test&lt;SCRIPT Language=JavaScript&gt;alert (&quot ;Hello&quot;);&lt;/SCRIPTKgt; 





图 11-5 ”CGI.escapeHTML 的 代码 例子 


Ruby on Rails 等 利用 的 eRuby 中 ， 如 果 用 h 方法， 可 以 像 下 述 这 样 进行 
HTML 转 义 〈 包 含 ERB: :Util 模块 时 一 一 Rails 中 默认 包含 此 模块 ) 。 


很 遗憾 ， 现 在 的 Ruby 不 会 自动 检测 XSS。 以 用 户 输入 为 基础 进行 输出 
的 时 候 ， 别 忘 了 将 HTML 标签 进行 转 义 。 

把 受 污染 的 字符 串 原封 不 动 地 进行 输出 ， 束 会 产生 错误 ， 这 种 模板 引擎 
”还 没有 一 般 化 。 已 经 有 了 Tempura (URL 是 
http://www.fobj.com/tempura/ ) 等 实施 检查 的 模板 引擎 ， 也 和 希望 为 了 安 
全 而 进行 的 污染 检查 能 够 一 般 化 。 


7 Template Engine〈 模 板 引 擎 ) ， 一 种 将 程序 和 画面 剥离 开发 的 工具 。 
11.1.11 跨 站 点 伪造 请 求 


跨 站 伪造 请 求 《CSRF)〉 是 Web 应 用 程序 固有 的 攻击 手段 ， 近 些 年 成 为 
大 家 议论 的 话题 。 

几 年 前 ， 社 交 服 务 网 站 Mixis 中 发 生 了 一 个 事件 ， 在 用 户 本 人 不 知情 的 
情况 下 ， 日 记 中 被 写 入 了 “你 好 ， 你 好 ， 我 是 玛 琪 ! ”的 内 容 。 这 是 利用 
CSREF 的 恶作剧 。 

8 Mixi 是 日 本 著名 的 交友 网 站 。 译 者 注 


利用 CSRF， 可 能 蒙混 网 络 应 用 程序 的 认证 ， 经 第 三 者 发 送 请 求 。 这 个 




































































事件 里 ， 由 于 错误 地 发 出 了 第 三 者 的 写 入 日 记 的 请 求 ， 导 致 在 用 户 不 知 
情 的 情况 下 往日 记 里 写 入 了 新 的 内 容 。 


而 且 ， 如 果 无 意 间 点 击 了 这 个 日 记 中 的 链接 的 话 ， 就 会 触发 攻击 程序 ， 
转眼 之 间 ， 像 谜 一 样 的 日 记 内 容 扩散 到 整个 Mixi 











这 种 行为 的 是 非 暂且 不 说 ， 通 过 这 个 事件 ， 以 前 默默 无 闻 的 CSRF 名 声 
大 振 。 因 为 CSRF 可 以 伪造 各 种 各 样 的 请 求 ， 潜 在 危害 不 小 ， 所 以 大 家 
开始 重视 它 ， 积 极 研究 对 策 ， 应 该 说 是 件 好 事 。 事 实 上 ， 我 所 使 用 的 
人 CSRF 对 策 ， 那 件 事情 之 后 ， 我 采取 了 
紧急 对 策 。 


CSREF 的 原理 如 下 。 


正如 HTTP 那 一 节 讲 述 的 那样 ， 构 成 Web 应 用 程序 的 每 一 页 由 两 部 分 
构成 ， 一 个 来 自 网 络 浏览 器 的 HTTP 请 求 ， 一 个 是 HITP 服务 器 的 响 
应 。 本 来 ，HTTP 里 不 含 状态 ， 为 了 识别 网 上 程序 一 连 串 的 交互 〈 会 
话 ) ， 使 用 了 cookie (Web 浏览 器 保存 的 信息 ) 或 者 请 求 中 的 会 话 
ID。 由 此 进行 连续 处 理 ， 这 是 一 般 做 法 。 登 录 信 息 也 是 同样 处 理 。 









































站 点 A (普通 站 点 ) 站 点 B (恶意 站 点 ) 


请 求 HTML 请 求 HTML 
【cookie ) (cookie ) 


对 站 点 A 的 请 求 含 有 URL 
<IMG SRC = " " > 





Web 浏览 器 
图 11-6 CSREF 的 攻击 步骤 

假设 会 话 ID 的 信息 存放 在 cookie 里 ， 站 点 A 是 受 攻击 对 象 。 用 户 正当 

登录 到 站 点 A 中 (参见 图 11-6@〉 。 登 录 成 功 后 ， 站 点 A 往 浏览 器 发 


送 一 个 cookie， 作 为 访问 权 的 证 明 。 以 后 ， 浏 览 器 往 站 点 A 发 送 请 求 
时 ， 连 带 此 cookie 一 起 发 送 。 站 点 A 遇 到 此 cookie， 就 认为 是 来 自 正 


当 用 户 的 访问 。 


接着 ， 用 户 获 取 站 点 A 中 某 一 页 ， 该 页 含有 不 正当 的 链接 。 当 然 ， 该 
用 户 不 知道 链接 是 有 问题 的 。 (参见 图 11-6C) ) 


如 果 点 击 了 这 个 有 问题 的 链接 ， 就 会 取得 恶意 站 点 了 的 某 一 页 (参见 图 
11-6@)) 。 站 点 B 虽然 返回 HTML， 但 其 中 含有 像 cimg> 这 种 能 够 自动 
装载 的 标签 标签 里 内 嵌 有 能 够 攻击 站 点 A 的 URL。 这 就 是 CSRF 的 
原理 。 


为 了 应 对 CSRE， Se ID 中 不 光 要 含有 cookie， 还 要 附加 能 够 证 明 这 是 
正确 请 求 的 信息 


有 3 个 方法 可 以 实现 这 一 目的 :附加 称 为 标记 (token)〉 的 信息 ， 检 查 
HTTP 请 求 来 源 〈Referer) 以 及 频繁 进行 认证 。 频 繁 的 认证 检查 太 多 
了 ， 用 着 不 方便 ， 一 般 用 另外 两 个 方法 。 


现在 ， 包 括 Ruby on Rails 在 内 ， 提 供 了 某 种 CSRF 对 策 的 Web 应 用 程 
序 框架 ? 也 在 增加 。 请 参照 各 框架 的 手册 。 
9 Web 应 用 程序 框架 是 指 为 了 开发 Web 应 用 程序 而 设计 的 类 和 库 。 


除了 会 话 固 化 (Session Fixation) 之 外 ， 还 有 别 的 攻击 手段 。 其 中 有 很 
多 可 以 由 Web 应 用 程序 框架 来 对 付 。 编 写 安 全 的 Web 应 用 程序 的 根 
本 ， 就 是 采用 有 认真 的 安全 防范 措施 的 框架 。 


11.1.12 ”社会 工程 


以 上 讲解 了 由 于 程序 的 缺陷 所 造成 的 漏洞 的 几 个 例子 。 问 题 是 ， 不 光 是 
程序 的 缺陷 会 造成 漏洞 ， 倒 是 更 原始 的 方法 所 造成 的 问题 更 多 。 比 如 
说 ， 将 密码 写 在 小 纸 条 上 贴 在 显示 圳 边框 上 ， 往 客户 服务 中 心 打 电话 伪 
装 成 过 到 困难 的 善意 用 户 ， 问 出 会 员 信息 ， 等 等 。 


像 这 样 用 原始 手段 攻击 系统 的 安全 ， 有 时 称 为 社会 工程 攻击 (social 
engineering) 。 开 发 人 员 对 此 无 能 为 力 ， 只 能 靠 提 高 运用 层面 的 防范 意 
识 来 应 对 。 


“锁链 的 强度 取决 于 最 弱 的 环节 ”， 这 是 在 谈 到 安全 性 时 经 常 使 用 的 一 句 
























































谚语 。 虽 然 对 策 不 完全 靠 开 发 人 员 的 努力 也 是 事实 ， 但 开发 人 员 不 能 因 
此 而 放弃 弥补 程序 上 的 缺陷 。 


米 米 米 


这 次 重新 思考 了 安全 问题 。 安 全 是 一 个 非常 深奥 的 问题 ， 这 次 的 讲解 只 
能 算是 接触 到 这 个 问题 的 皮毛 。 但 是 ， 很 多 的 安全 问题 ， 可 以 通过 语言 
或 框 以 得 到 东 种 程度 的 解决 。 为 了 使 用 户 不 必 在 安全 问题 上 烦恼 ， 语 言 
或 者 框架 的 开发 人 员 必 须 不 断 努 力 。 语 言 开 及 人 员 必 须 谨 记 这 一 点 。 








11.2 ”用 异 和 进行 错误 处 理 


查 查 日 语词 典 《 广 秤 死 》,“ 异 常 ”这 个 词 是 这 么 解释 的 :“ 与 通常 的 原 
则 不 相符 合 ， 不 适用 一 般 原 则 ， 或 者 出 现 这 种 状况 的 事物 。 例 : 没有 不 
存在 寞 第 的 规则 。” 


具体 到 编程 方面 ,，“ 程 序 在 执行 某 种 处 理 的 过 程 中 ， 发 生 了 菏 种 异常 ”以 
及 “表示 这 种 状况 的 对 象 ” 被 称 为 异常 。 男 外 ， 人 处理 这 种 异常 的 功能 称 为 
异常 处 理 功 能 。 这 种 异常 处 理 功能 并 不 是 Ruby 所 特有 的 ，Lisp、 
Java、C++ 等 多 种 语言 都 具备 这 种 功能 。 


很 多 具有 腊 币 处 理 功 能 的 语言 ， 在 发 生 弄 常 以 后 ， 都 会 中 断 程 序 。 这 是 
因为 友 生 了 超 乎 预想 的 情况 ， 不 能 指望 程序 再 正常 执行 下 去 了 。 


“ 超 乎 预想 的 情况 ”， 是 指 类 似 于 想 要 打开 的 文件 不 存在 这 样 的 情况 。 文 
PT ， 也 就 不 能 从 文件 中 读 取 数据 ， 程 友 该 如 何 执 行 也 就 无 从 知 
道 。 

这 时 ， 目 动 中 断 程 序 的 执行 ， 是 很 受 欢 迎 的 。 在 没有 异 冲 处 理 的 C 语言 
中 ， 文 件 的 打开 处 理 估计 会 像 图 11-7 所 示 的 这 样 吧 。 


1 #include <stdio.h> 














main() 
FILE *f = fopen("/path/to/file", "r"); 


if (f == NULL){ /#* 不 能 打开 的 话 ， 就 是 NULLY/ 
/* 文 件 打开 失败 时 的 处 理 */ 




















fprintf(stderr, "open file %s failed"); 
exit(1); 





图 11-7 C 语言 中 打开 文件 
图 11-7 的 程序 中 ， 打 开 文 件 的 实质 性 的 处 理 只 有 第 5 行 中 fopen 的 部 





分 。fopen 函数 指定 文件 名 和 打开 模式 ， 打 开 文 件 ， 把 结果 放 在 FILE 
结构 体 中 ， 用 于 以 后 的 读 / 写 操作 。 但 是 ，fopen 有 时 可 能 会 失败 ， 失 
败 时 不 能 生成 FILE 结构 体 ， 返 回 NULL 作为 错误 标志 。 





从 第 7 行 到 第 11 行 是 失败 时 的 处 理 。 这 里 表示 出 现 错误 信息 之 后 ， 使 
用 exit 函数 中 断 程序 。 必 须 一 一 检查 有 没有 发 生 错误 ， 这 样 程序 变 得 
杂 了， 而 且 在 忘记 检查 时 ， 程 序 可 能 会 在 前 提 条 件 不 成 立 的 情况 下 执 
行 。 正 如 上 节 上 所 述 ， 这 样 的 检查 遗漏 会 引发 安全 问题 。 

















如 果 是 Ruby， 程 序 可 以 写成 图 11-8 所 示 的 样子 。 


f = open("/path/to/file", "r") 





图 11-8 Ruby 语言 中 打开 文件 
与 C 语言 程序 比较 起 来 ， 简 洁 太 多 了 ， 有 点 让 人 惊奇 。 只 需要 打开 文件 
这 一 实质 性 的 处 理 。 如 果 没 有 特别 指定 ， 异 和 常 的 状况 就 交 给 语言 去 处 理 
Kf 


图 11-8 中 的 Ruby 程序 ， 如 果 文 件 不 存在 ， 就 会 像 图 11-9 的 程序 那 
样 ， 输 出 错误 信息 ， 然 后 中 断 。 











f.rb:1:in “initialize': No such file or directory - /path/to/file (Errno::E 
from f.rb:1:in ”open 


























图 11-9 ”文件 不 存在 时 的 错误 信息 
Ruby 中 发 生 了 寞 第 ， 束 中 断 程 序 执行 ， 输 出 该 腊 第 所 对 应 的 信息 。 


但 是 ， 并 不 是 在 所 有 情况 下 ， 都 希望 程序 一 发 生 异 常 束 中断 。 比 如 在 用 

Ruby 写 一 个 文字 处 理 程序 时 ， 仪 仪 是 在 打开 文件 的 对 话 框 里 痪 错 了 文 

件 名 ， 就 将 整个 儿 文 字 处 理 程序 结束 ， 并 不 能 说 这 是 什么 值得 高 兴 的 

事 。 在 没有 明示 会 有 什么 异常 时 ， 我 们 希望 中 断 程序 ， 但 在 能 够 预测 异 

则 希望 用 程序 来 应 对 。Ruby 中 用 begin 来 捕捉 异常 (参见 
11-10) 。 









































begin < 异常 捕捉 范围 的 开始 
print "input filename:" <“ 读 入 路 径 
path = STDIN.gets 
path.chomp! 
open = open(path, "r") < 打开 
rescue Errno::ENOENT 


printf "No file: %s\n", path < 文件 不 存在 时 输出 错误 信息 
retry < 从 begin 开始 再 执行 一 次 
end 

















图 11-10 用 begin 捕捉 异常 


从 begin 到 rescue 之 间 ， 如 果 发 生 了 异常 ， 那 么 只 有 在 rescue 里 指 
定 的 异常 才 会 被 捕捉 。 比 如 在 读 取 文件 名 等 系统 调用 时 发 生 了 错误 代码 
Errno: :ENOENT 以 外 的 异常 ，rescue 中 会 无 视 ， 程 序 的 执行 被 中 断 。 
执行 的 中 断 是 从 最 后 的 调用 方法 开始 ， 一 直上 漳 查 找 ， 如 果 找 到 对 应 的 
rescue ， 则 被 该 rescue 所 捕获 。 如 条 到 最 后 还 没有 找到 ， 束 显示 元 
常 信息 ， 并 终止 程序 执行 。 


Java 和 C++ 中 使 用 try 来 捕捉 异常 ， 但 try 隐 含 着 “ 试 一 试 ”的 意思 ， 
我 不 太 中 意 ，Ruby 中 就 专门 选 了 begin 这 个 词 。 


虽然 这 样 做 可 以 让 程序 员 集中 精力 作 实 质 性 的 处 理 ， 带 来 很 多 很 多 的 便 
利 ， 但 也 并 不 全 是 好 处 。 异 常 说 到 底 是 某 种 形式 的 goto ， 程 序 流程 的 
控制 变 难 了 。 但 异常 与 goto 还 不 同 ， 异 常 没有 指明 发 生 的 地 方 ， 其 问 
题 更 加 复杂 。 


那么 该 如 何 正 确 进 行 异常 处 理 呢 ? 后 面 将 会 讲解 。 

11.2.1 异常 的 历史 

含有 异常 的 语言 中 ， 使 用 人 数 最 多 的 ， 我 想 应 该 是 Java 吧 。Java 这 种 
语言 ， 吸 收 了 过 去 的 语言 所 提供 的 先进 功能 ， 并 使 它们 普及 ， 作 出 了 很 
大 贡献 。 但 并 不 是 Java 发 明了 异常 。 实 际 上 ， 早 在 Java 流行 之 前 几 十 
年 ， 异 常 就 存在 了 。 


最 初 是 哪 种 语言 开始 提供 异常 处 理 功能 的 ? 很 遗憾 ， 我 没 能 得 到 确切 答 
案 。 我 推测 是 Lisp， 要 么 就 是 与 其 相近 的 某 种 语言 。Lisp 从 1972 年 开 























始 就 有 了 腊 常 处 理 功 能 ， 而 Java 是 20 年 前 才 诞 生 的 。 


Ruby 也 是 在 Java 广 为 人 知之 前 就 具有 了 异常 处 理 功 能 。 我 自己 学 习 异 
常 ， 是 从 一 则 介绍 麻 省 理工 学 院 (MIT) 开发 的 CLU 语言 的 报道 开始 
的 。CLU 等 语言 间接 影响 了 Ruby。 


从 Java 以 后 ， 有 异常 就 变 得 很 普通 了 ，21 世纪 的 语言 ， 儿 乎 部 具 有 和 异常 
处 理 功 能 。 








11.2.2 ” Java 的 受 控 异 常 
也 介绍 一 点 Ruby 以 外 的 语言 吧 。 
Java 的 异常 与 Ruby 的 异常 很 相似 。 最 大 的 区 别 在 于 ， 各 自 的 方法 中 是 


含有 必要 明确 指出 有 发生 异常 的 可 能 性 。 图 11-11 显示 的 是 Java 的 方法 定 
义 〈 一 部 分 ) 。 方 法 名 和 参数 之 后 ， 用 throws 指定 所 要 发 生 的 异 前 。 





void open file() throws FileNotFoundExceptiont{ 
return new FileReader("/path/to/file"); 


} 





图 11-11 Java 的 方法 定义 “〈 含 异常 ) 


而 且 在 Java 的 方法 定义 中 ， 如 果 调 用 了 和 带 异 常 的 方法 ， 该 异常 既 没 有 
在 异常 处 理 中 捕获 ， 又 没有 throws 指定 ， 就 会 发 生 编译 错误 ， 异 常 也 
会 成 为 方法 类 型 的 一 个 组 成 部 分 ， 这 样 的 异常 称 为 受 控 异常 。 被 广泛 使 
用 的 语言 中 ， 采 用 受 控 异常 的 ，Java 是 第 一 个 ! 。 从 整体 而 言 ，Java 没 
怎么 采用 新 的 作法 ， 是 一 种 保守 的 程序 设计 语言 ， 但 在 这 个 巧妙 的 地 方 
冒 了 一 次 险 。 

1 上述 的 CLU 也 声明 函数 产生 的 异常 ， 但 CLU 怎么 也 算 不 上 是 “广泛 使 用 的 语言 >。 

为 了 不 至 于 漏 挥 对 某 个 异常 的 捕获 ， 编 辑 器 严格 进行 检查 ， 从 这 个 意义 
上 说 ， 受 控 异 常 是 个 难能可贵 的 功能 。 这 与 积极 检查 与 静态 类 型 不 一 致 
的 类 型 一 样 ， 是 符合 Java 方针 的 。 


但 是 ， 也 有 对 受 控 腊 常 的 批评 。 本 来 ， 之 所 以 被 称 为 异常 ， 束 是 因为 不 
好 提前 预想 。 但 为 了 不 出 编译 错误 ， 编 码 时 却 要 强制 性 地 一 一 声明 ， 真 























古 件 很 痛 舌 的 事 。 


实际 上 ， 虽 然 看 起 来 与 数据 库 文 件 之 类 的 没 什么 关系 ， Java 的 方 
法 中 却 要 抛 出 SQLException 或 IOException 的 例子 也 是 有 的 。 也 就 
是 说 ， 让 用 户 看 到 了 一 些 并 不 必要 的 详细 实现 细节 。 


这 么 说 来 ， 如 果 浊 足 适 履 ， 为 了 配合 每 一 个 方法 的 意义 ， 而 强制 对 腊 锦 
进行 置换 ， 或 者 是 为 了 不 出 编译 错误 ， 而 勉强 捕获 异常 ， 就 有 些 本 末 倒 
置 了 。 出 了 编译 错误 ， 也 就 是 编译 占 “ 生 气 了 ”如果 是 真 的 有 错 ， 受 点 
编译 器 的 气 那 也 没 办 法 ， 但 如 果 仅 仅 是 因为 异常 的 种 类 稍微 有 点 不 同 惑 
受气 的 话 ， 和 是 不 利于 精神 健康 的 。 而 且 ， 为 了 消除 编译 错误 ， 必 须 写 进 
大 量 的 异常 处 理 ， 寞 常 的 种 种 好 处 全 被 抵消 了 。 


请 不 要 误解 。 受 控 异 常 也 有 好 处 。 但 从 个 人 来 讲 ， 比 起 那 种 不 允许 犯错 
的 严 历 老师 一 样 的 语言 ， 我 更 喜欢 Ruby 这 种 宽容 的 语言 。 

11.2.3 Icon 的 面向 目标 判断 

作为 异常 的 变形 ， 介 绍 一 下 Icon 语言 的 目标 指 癌 判断 吧 。Icon 是 亚 利 
桑 那 大 学 开发 的 以 处 理 字 符 串 和 模式 匹配 为 目的 的 编程 语言 。 

Icon 中 的 异常 (Icon 中 称 为 失败 ) 用 “* 伪 ?来 表示 。 也 就 是 说 ， 计 算 某 个 
值 的 时 候 没 发 生 异 常 就 是 真 ， 发 生 了 异常 束 是 盆 。 所 以 ， 对 于 if 式 条 
件 判 断 ， 在 Ruby 等 语言 中 是 判断 “如 果 式 子 是 真 ”， 但 Icon 不 同 ， 判 断 
的 是 “如 果 式 子 成 功 ( 没 友 生 异常 ) ”。 这 样 ， 即 使 是 


ax<b 





























这 样 简 单 的 式 子 ， 其 意义 并 不 是 “a 与 b 比较 ， 如 果 b 大 就 是 真 ， 如 果 b 
小 或 二 者 相等 就 是 伪 ”， 而 是 “a 与 b 比较 ， 如 果 二 者 相等 或 者 a 大 ， 就 
是 异 第 ， 否 则 返回 b 值 "。 结 果 


这 种 式 子 也 是 正确 的 式 子 。 判 断 这 个 式 子 的 时 候 ，a < b 的 值 在 比较 是 





真 的 时 候 是 b ， 接 着 再 判断 b < c 。 


如 宁 最 初 的 比较 是 伪 ， 整 个 式 子 就 是 失败 ， 后 面 的 比较 就 不 再 进行 。 在 
Ruby 等 真 伪 值 判断 的 语言 中 ， 必 须 写 成 


a 《bg&&bc 


如 琳 条 件 式 以 外 的 部 分 判断 得 出 失败 ， 像 其 他 语言 中 的 腊 第 一样， 就 中 
断 程序 执行 。 


这 样 ，Ruby 中 的 程序 段 


begin 
# 读 入 1 行 
while line = gets() 
# 打印 1 行 
print line 


# 什么 都 不 二 


end 





用 Icon 语言 写 就 是 


while write(read()) 


read 函数 一 行 一 行 读 取 ， 将 读 取 的 值 作 为 返回 值 传 给 write ， 然 后 输 
出 。 文 件 读 到 最 后 ，read() 函数 失败 。Icon 的 while 语句 是 “直到 条 
件 判断 式 失败 为 止 ， 反 复 循 环 ” 的 意思 。read() 函数 的 失败 被 while 
语句 的 条 件 判 断 捕 获 ， 结 束 循环 。 


除 此 之 外 ，Icon 中 还 有 every 语句 ， 这 是 直到 失败 为 止 各 种 组 合 都 党 
试 一 遍 的 控制 结构 。“ 直 到 达成 某 种 目的 为 止 持续 判断 ”， 基 于 Icon 的 这 
种 判断 方式 ，Icon 被 称 为 面向 目标 判断 。 


Ruby 在 设计 之 初 ， 也 曾 认 真 考虑 过 采用 像 Icon 式 的 真 伪 值 判 晰 ， 结 果 
还 是 及 用 了 nil 和 false 以 外 的 值 全 是 真 值 的 这 种 正统 方式 。 如 果 那 
时 候 ， 作 出 了 男 一 种 判断 ， 或 许 Ruby 的 性 质 就 会 大 变样 。 


11.2.4 Ruby 的 异常 





现在 再 来 说 说 Ruby 的 异 第 吧 。 首 先 捕获 异常 的 是 begin 语句 。begin 
语句 的 语法 如 图 11-12 所 示 。 


begin 
可 能 发 生 异 常 的 处 理 
rescue 异常 类 ，.. .=> 变 量 
指定 的 异常 发 生 时 的 处 理 
将 异常 对 象 赋值 给 变量 
省 略 异 常 类 时 ， 使 用 StandardError (标准 错误 类 ) 
即便 省 略 变量 ， 也 可 以 用 $! 人 参照 


else 









































没 发 生 异 常 时 的 处 理 





ensure 
跳出 begin 语句 以 后 的 处 理 
不 管 异 常 发 生 或 者 不 发 生 ， 都 要 执行 的 处 理 


end 









































图 11-12 ”begin 语句 的 语法 


begin 语句 有 4 节 。 关 键 字 begin 和 主体 ， 记 述 可 能 发 生 异 常 时 的 处 
理 。 剩 下 的 “rescue ” 节 、“else ”和 和 “ensure ” 节 全 部 都 可 以 省 略 。 


跟 在 主体 之 后 的 rescue 节 ， 指 定 异 常 处 理 。Java 中 称 为 catch 
。rescue 这 个 名 字 是 从 Eiffel 语言 中 借用 的 。 


本 来 ， 借用 的 只 是 名 字 本 映 ， 实际 的 异常 处 理 原 理 很 不 相同 。 不 管 怎 么 
说 ，rescue 这 个 单词 暗含 有 “将 程序 从 异 各 状 况 中 救出 来 ”之 意 ， 不 和 觉 
得 很 酷 吗 ? 


rescue 节 指 定 异 党 类 。 本 体 在 执行 时 ， 如 果 发 生 了 指定 的 异 

常 ，rescue 的 内 容 就 会 被 执行 。rescue 节 的 异常 判定 是 以 异常 类 为 基 
础 进行 的 。 也 就 是 说 ， 发 生 的 异常 类 ， 如 果 是 指定 的 类 或 其 子 类 ， 束 认 
为 是 一 致 的 。 这 对 于 被 强调 为 鸭子 类 型 ， 不 怎么 以 类 的 层次 结构 为 基础 























来 处 理 的 Ruby 而 言 ， 是 很 罕见 的 ?。 


2 还 有 一 个 地 方 ， 积 极 利用 类 层次 结构 的 是 Numeric 类 和 其 子 类 。 因 为 数 的 层次 结构 是 从 数学 
上 来 定义 的 。 


rescue 下 的 类 可 以 省 略 ， 这 时 候 看 做 是 指定 了 standardError 类 。 
Ruby 的 寞 第 类 全 部 继承 自 Exception 类 ， 如 果 指 定 了 Exception 

类 ， 那 么 就 会 捕获 全 部 的 异常 。 但 是 ， 后 面 也 会 讲解 ， 我 并 不 希望 指定 
太 大 范围 的 异常 类 。 


异 着 对象 所 含有 的 异常 信息 ， 和 被 赋值 给 异常 对 象 后 紧 跟 着 => 的 变量 里 。 
这 也 可 以 省 略 。 在 省 略 的 情况 下 ， 发 生 的 异常 可 以 用 特殊 变量 g! 引 
用 。 但 $ 和 ! 出 现 太 多 的 话 ， 会 让 程序 看 起 来 很 丑陋 。 


rescue 节 中 ， 可 以 使 用 retry 语句 。 用 retry 语句 ， 则 从 begin 开 
始 ， 包 含 rescue 节 ， 会 再 执行 一 次 。 如 果 rescue 中 发 生 异 常 的 原因 被 
消除 了 ， 用 retry 再 执行 一 遍 ， 处 理 就 会 正常 终止 。 但 是 ， 在 retry 之 
前 ， 如 果 原 因 没 有 消除 ， 就 会 简单 地 陷入 到 无 限 循环 中 ， 这 一 点 请 注 
意 。 

















对 发 生 的 每 一 个 异常 进行 不 同 的 处 理 ， 并 不 罕见 。 所 以 ，rescue 市 
中 ， 当 然 可 以 指定 多 个 异常 。rescue 节 中 的 一 致 性 判定 从 上 到 下 执 
行 ， 执 行 第 1 个 匹配 的 异常 。 比 如 有 多 个 与 rescue 的 指定 相 匹 配 的 异 
常 肥 生 时 ， 实 际 执行 的 也 只 有 第 1 个 。 


rescue 的 后 面 可 以 放 else 节 ， 这 只 有 在 begin 主体 中 没 发 生 异 常 时 
执行 ， 作 为 成 功 时 的 后 续 处 理 。 实 际 上 begin 语句 的 else 节 用 途 不 
大 ， 从 我 自己 的 经 验 来 看 ，else 节 几 乎 没有 必要 。 

放 在 begin 语句 最 后 的 是 ensure 节 ，Java 中 称 为 finally 。 这 个 名 
字 也 是 来 源 于 Eiffel。 本 来 ，Eiffel 中 ensure 并 不 用 于 异常 处 理 ， 而 是 
用 于 指定 方法 执行 后 应 当 满 足 的 事后 条 件 。 


ensure 节 里 指定 的 处 理 ， 从 begin 语句 跳出 时 肯定 被 执行 。 从 begin 
语句 的 范围 内 跳出 的 方法 有 : 


e 执行 终止 ; 





。return 、break 等 ; 


。 异常 。 
不 管 采用 哪 种 方法 跳出 begin 的 范围 ， 都 要 执行 ensure 语句 3 。 
3 严格 来 讲 ， 只 有 用 延续 (Continuation〉 来 跳出 begin 的 范围 ， 才 不 执行 ensure 节 。 


ensure 节 用 于 解决 异常 发 生 时 ， 由 于 执行 被 中 断 所 导致 的 不 一 致 。 关 
于 这 一 点 ， 后 面 还 会 有 详细 的 说 明 。 


11.2.5 ”异常 发 生 


现在 来 看 看 让 异常 发 生 的 方法 。 异 常 发 生 用 raise 方法 。Ruby 

中 ，raise 不 是 关键 字 ， 只 是 单纯 的 方法 。 调 用 raise 方法 后 ， 生 成 
一 个 异常 对 象 ， 中 断 程序 开始 执行 。 途 中 ， 如 果 有 与 异常 对 象 相 匹配 的 
rescue 节 ， 处 理 就 移交 给 它 〈rescue 节 ) 。 在 rescue 中 (通过 
rescue 节 的 赋值 ， 或 是 变量 $1) ， 可 以 访问 异常 对 象 。 


调用 raise 方法 有 几 种 形式 ， 根 据 情况 区 别 使 用 。 首 先 ， 最 基本 的 是 
仅 指 定 错误 信息 。 


raise "something bad happens" 


这 样 就 产生 了 RuntimeError 异常 。 站 先 不 要 在 意 异 常 的 种 类 ， 只 要 能 
传达 错误 信息 ， 这 个 形式 就 已 经 足够 了 。 


下 一 个 形式 是 指定 异 毅 类 与 消 妃 。 


raise TypeError, "wrong type" 


异常 类 (TypeError ) 指定 Exception 类 的 子 类 。raise 在 内 部 生成 
旨 定 类 的 实例 ， 并 中 断 程序 的 执行 。 第 2 种 形式 的 raise 中 ,第 3 个 
参数 可 以 省 略 。 第 3 个 参数 可 以 是 数组 ， 访 数组 用 于 回调 (backtrace 
) 哪 一 个 函数 从 哪 一 行 被 调用 的 信息 。 


























如 果 想 在 rescue 节 中 再 现 同样 异常 的 话 ， 需 要 在 raise 方法 里 指定 异 
IER 
首 对 象 。 


raise exc 


这 种 形式 中 ， 包 括 回调 在 内 的 原来 的 异常 信息 都 被 原样 保存 ， 并 传送 给 
调用 的 上 一 级 。 


最 后 的 形式 是 省 略 全 部 参数 的 raise 方法 。 这 种 情况 下 ， 在 rescue 
中 ， 发 生 的 异常 保存 在 变量 $! 中 。 在 rescue 节 的 外 侧 ， 发 生 信 息 为 空 


的 RuntimeError 异常 。 











11.2.6 ”异常 类 








现在 来 看 看 异常 类 的 层次 结构 吧 。 图 11-13 是 Ruby 异 常 类 的 层次 结构 
图 。 


Exception 
StandardError 
ypeError 
ArgumentError 
IndexError 
KeyError 
RangeError 
FloatDomainError 
ZeroDivisionError 
NameError 
|_NoMethodError 
RuntimeError 
EncodingError 
FOREESGE 
EOFError 
RegexpError 
LocalJumpError 
hreadError 
SvystemCallError 
|_Errno :ENOENT 
SecurityError 
NoMemoryError 
SystemStackError 
ScriptError 
SyntaxError 
LoadError 
NotImplementedError 
SignalException 
Interrupt 
SystemExit 


图 11-13 Ruby 的 异常 类 层次 结构 图 


Exception 是 所 有 异常 类 的 父 类 。Exception 子 类 以 外 的 类 ， 不 能 作 
为 raise 的 参数 。 


StandardError 通常 是 为 了 表示 程序 执行 中 发 生 的 异常 事件 的 
类 。StandardError 是 rescue 节 中 没 指定 类 名 时 的 默认 值 。 反 过 来 
说 ，StandardError 的 子 类 以 外 的 类 需要 特别 的 处 理 。 


比如 ，NoMemoryError 类 在 内 存 不 足 、 不 能 生成 对 象 时 发 生 。 内 存 不 
足 时 能 够 做 的 事 几 乎 没有 ， 这 个 类 就 不 能 作为 standardError 的 子 


2 


ScriptError 是 程序 本 身 有 错误 时 发 生 。 这 时 比 继续 执行 程序 更 优先 
的 是 修改 程序 错误 ， 这 个 类 也 不 作为 standardError 的 子 类 。 还 有 ， 

由 键盘 中 断 引 起 的 Interrupt 和 exit 会 最 终 导致 程序 终止 ， 此 时 发 生 
的 SystemExit 也 不 是 standardError 。 这 些 异 常 都 是 由 错误 引起 

的 ， 从 严格 意义 上 说 ， 它 们 不 是 异常 《而 是 错误 ) 。 


























操作 系统 的 系统 调用 失败 时 ， 产 生 SystemCallError 的 子 类 异常 。 这 
些 异常 因 POSIX 规格 的 错误 代码 errno 而 得 名 。 比 如 文件 不 存在 时 ， 
产生 Errno: :ENOENT 异常 。 这 些 异 常 类 的 名 字 不 以 Error 为 结尾 ， 是 
比较 罕见 的 个 例 。 


11.2.7 异常 处 理 的 设计 方针 


如 上 所 述 ， 异 常 处 理 具 有 茶 些 goto 的 特点 ， 使 用 时 有 必要 注意 一 下 。 
这 里 介绍 一 下 正确 的 异常 处 理 的 设计 方针 。 


首先 应 当 考 虑 的 是 ， 方 法 的 正当 性 。 方 法 的 执行 应 当 “ 异 常安 
全 ”(Exception Safe) 。 所 谓 异 常安 全 ， 是 指 执行 时 即使 发 生 了 异常 ， 
也 不 会 发 生 异 常情 况 。 比 如 : 

。 因为 发 生 了 异常 ， 留 下 了 不 完全 的 数据 结构 ; 

。 因为 发 生 了 异常 ， 数 据 库 里 进 了 垃圾 ; 

。 因为 发 生 了 异常 ， 程 序 异常 终止 。 
如 果 发 生 了 上 述 情况 ， 这 样 的 方法 就 不 能 称 为 异常 安全 。 异 常安 全 的 实 
现 ， 说 起 来 简单 做 起 来 难 。 粗 心 大 意 的 话 ， 束 会 在 想不到 的 地 方 发 生 异 
第 。 为 了 做 到 异常 安全 ， 应 当 使 用 ensure 来 进行 善后 处 理 。 
看 看 图 11-14。 它 是 打开 数据 库 进 行 处 理 的 程序 的 一 部 分 (大 致 示 


意 ) 。 这 里 用 “...…...” 来 表示 数据 库 处 理 中 发 生 了 异常 ， 程 序 的 执行 在 那 
里 中 断 ， 结 果 数 据 库 没有 关闭 程序 就 结束 了 。 











(a) 非 异 常安 全 的 示例 


db = database_open() < 打开 数据 库 
ee < 对 数据 库 进行 处 理 








db.close < 关闭 数据 库 


(b) 异常 安全 的 示例 
db = database_open() < 打开 数据 库 





























begin < 用 begin 语 句 将 数据 库 处 理 包 起 来 
































< 对 数据 库 进行 处 理 





ensure 
db .close < 关闭 数据 库 


end 








图 11-14 异常 安全 的 程序 











另 一 方面 ， 在 图 11-14b 中 数据 库 处 理 的 全 体 用 begin 语句 包 起 来 。 处 
理 中 即使 发 生 了 异常 ， 也 会 保证 在 ensure 节 中 将 数据 库 关 闭 。 


虽说 如 此 ， 在 Ruby 这 样 的 语言 中 ， 也 许 一 般 用 户 对 于 寞 第 安全 没 必 要 
过 于 担心 。 即 使 有 构建 了 半截 的 不 完整 的 数据 结构 ， 或 是 有 打开 了 而 没 
有 关闭 的 文件 ， 茶 个 时 候 也 会 有 垃圾 处 理 机 制 来 回收 。 但 是 ， 开 发 数据 
库 处 理 程序 的 底层 开 友 人 员 ， 非 党 有 必要 意识 到 异常 安全 。 


其 次 应 当 注 意 的 是 ， 不 应 当 受 理 超出 必要 范围 的 异常 ， 特 别 是 应 当 避 免 
在 rescue 节 指 定 Exception 。 事 先 完全 预测 会 发 生 什 么 样 的 异常 是 很 
困难 的 。 自 己 不 能 预测 的 异常 ， 不 要 铠 强 去 捕获 ， 应 当 交 给 上 层 程序 去 
处 理 。 如 果 在 rescue 节 里 指定 Exception ， 就 会 把 本 来 应 当 到 达 上 层 
的 没 预 测 到 的 异常 也 给 捕获 了 。 


最 后 应 当 注 意 的 是 ， 除 非 清 楚 知 道 自己 在 干什么 ， 否 则 人 处理 部 分 不 要 使 
用 空 的 rescue 节 。 因为 处 理 部 分 使 用 空 的 rescue 闻 ， 就 是 无 视 所 发 
生 的 异常 。 但 是 ， 任 何 异 常 之 所 以 发 生 ， 肯 定 有 其 发 生 的 理由 。 无 视 异 
常 ， 就 等 同 于 软件 执行 中 没 发 生 任 何 问 题 。 这 里 的 处 理 要 是 琉 匆 了 ， 就 
可 能 错失 良机 ， 在 后 面 酿 成 更 大 的 问题 。 当 然 在 有 些 情况 下 可 以 无 视 异 
常 ， 但 应 当 避 人 免 随 随便 便 地 无 视 异常 。 


11.2.8 ”异常 发 生 的 设计 原则 
那么 ， 针 对 异常 发 生 的 情况 ， 该 是 什么 样 的 设计 方针 呢 ? 


想 要 传达 “与 通常 不 同 的 状态 ”时 ， 首 先 要 考虑 的 是 ， 如 何 判 断 该 卉 常情 
况 是 以 异常 传达 呢 ， 还 是 以 返回 值 传达 。 比 如 ， 对 哈 硕 表 进行 检索 时 ， 
键 〈key) 所 对 应 的 值 没 查 到 ， 就 不 返回 值 ， 这 是 条 种 意义 上 的 腊 常情 
况 。 那 么 ， 这 个 时 候 ， 是 不 是 该 返回 异常 呢 ? 当然 ， 不 存在 完全 正确 的 
答案 ， 但 就 我 个 人 的 想法 而 言 ， 这 种 情况 不 应 当 返 回 异常 。 


























4 在 Python 中 ， 哈 希 键 找 不 到 时 返回 异常 。 


容易 想象 到 哈 而 表 里 键 不 存在 的 事 ， 我 不 认为 这 是 非得 要 通知 调用 者 的 
重大 的 异常 情况 。 除 非 如 果 不 明确 处 理 的 话 ， 程 序 就 会 异常 终止 ， 则 对 
于 这 些 没 有 办 法 的 情况 ， 才 应 该 用 异 币 。Ruby 中 ， 对 于 较 小 的 错误 ， 
习惯 于 返回 NIL 值 ， 而 不 是 返回 异 第 。 现 在 假设 ， 肥 生 的 异常 情况 是 可 
以 作为 异常 的 重大 事件 ， 那 么 是 应 当 使 用 图 11-13 中 Ruby 提供 的 既 有 
的 异常 类 呢 ， 还 是 制作 一 个 应 用 程序 专用 的 异常 类 呢 ? 


作 这 个 判断 的 基本 原则 是 ， 如 果 想 让 产生 的 异常 正好 与 某 个 既 有 异常 类 
的 动作 一 样 ， 就 使 用 这 个 既 有 类 。 这 自然 不 会 产生 疑问 。 让 人 烦恼 的 是 
人 
言 恩 的 情况 。 


关于 前 者 ， 处 理 寞 常 那 一 侧 ， 应 当 能 够 判断 有 没有 必要 区 分 既 有 的 相似 
异常 和 想 要 发 生 的 寞 第 。 分 类 太 细 ， 无 非 是 让 指定 变 得 复杂 。 最 好 是 仅 
仅 在 真 的 想 要 区 分 时 ， 才 定义 新 的 类 。 

天 于 后 者 ， 所 谓 想 要 退 加 附加 信息 ， 那 肯定 是 预想 到 在 什么 地 方 会 对 它 


进行 与 婚 有 类 不 同 的 处 理 。 在 这 种 情况 下 ， 要 从 既 有 的 异常 类 派生 一 个 
子 类 ， 可 以 把 对 附加 信息 的 处 理 交 给 这 个 子 类 。 

在 既 有 的 异常 类 中 ，NameError 和 NoMethodError 就 是 这 种 关 

系 。NameError 是 在 找 不 到 指定 的 名 称 ( 变 量 或 常数 等 ) 时 发 生 的 异 

和 常 ， 而 NoMethodError 是 在 方法 调用 ， 找 不 到 方法 时 发 生 的 异常 ， 相 
当 于 找 不 到 名 称 的 实体 〈 这 里 是 方法 ) ， 从 这 个 意义 上 与 NameError 动 
作 相 同 ， 但 只 在 方法 调用 时 才 存 在 的 参数 信息 也 想 保 存 到 异常 对 象 中 

去 ， 所 以 做 了 一 个 子 类 。 


那么 ， 假 设 发 生 的 情况 与 既 有 的 弄 种 类 明显 不 同 ， 需 要 制作 一 个 新 的 异 
常 。 这 种 情况 下 ， 必 须 考虑 以 下 几 后 。 


。 名 称 : 应 该 给 新 的 类 起 一 个 什么 样 的 名 字 。 
。 父 类 : 新 的 类 应 该 属于 哪 一 个 异常 类 的 子 类 。 
。 生成 方法 : 应 该 如 何 初 始 化 新 的 类 实例 。 
现在 进行 逐一 分 析 吧 。 
































首先 ， 关 于 名 称 ， 在 异常 类 的 末尾 加 Error ， 是 Ruby 的 习惯 。 如 果 没 
有 特别 的 理由 ， 为 了 明确 表示 该 类 是 异常 类 ， 还 是 遵从 习惯 的 好 。 既 有 
的 异常 类 中 ， 不 以 Error 结尾 的 有 : 





Exception 

Errno: :EXXX 
SignalException 与 Interrupt 
SystemExit 


Exception 是 所 有 类 的 根 类 ， 为 了 表示 不 能 在 rescue 节 中 随便 使 用 ， 
没有 附加 Error 。Errno 模块 下 定义 的 系统 调用 的 异常 ， 则 是 为 了 得 
重 所 谓 POSIX 错误 代码 的 习惯 ， 而 没有 附加 Error 。 


最 后 ， 关 于 SignalException 、Interrupt 和 SystemEXit 这 三 个 ， 
虽然 是 利用 异常 这 种 机 制 ， 与 其 说 是 处 理 异常 情况 ， 不 如 说 中 断 执 行 的 
性 质 更 强 一 些 。 新 制作 的 类 ， 只 要 不 是 这 种 特殊 的 情况 ， 起 名 字 以 
Error 结尾 应 该 没什么 问题 吧 。 


那么 ， 定 义 一 个 异常 类 吧 。 图 11-15 显示 了 生成 异常 类 的 两 个 方法 。 图 
11-15a 是 标准 异常 类 的 生成 方法 。 图 11-15b 是 生成 一 个 异常 对 象 ， 然 
后 传递 给 raise 语句 。 


(a) 标准 异常 类 定义 (如 果 仅 仅 是 想 区 别 异 第 ， 这 已 经 足够 了 ) 


























class FooError «< StandardError 
end 


(b》 附 加 消息 以 外 的 信息 


class BarError < StandardError < 定义 initialize 方法 


def initialize (mesg，info) <* 以 参数 的 形式 追加 附加 信息 
@info = info < 信息 赋 给 类 实例 变量 
super (mesg) < 初始 化 消息 

end 





end 








图 11-15 ”异常 类 定义 


最 后 ， 讲 解 一 下 产生 异常 的 两 个 原则 。 第 1 个 是 关于 寞 步 寞 第 。 寞 步 异 














常 是 指 由 Thread.raise 方法 从 线程 外 部 生成 的 异常 。 语言 本 身 虽 然 提 
供 了 这 种 功能 ， 有 这 么 个 名 字 ， 但 异步 异常 的 基本 原则 是 不 要 使 用 异步 
已 A 

开 吊 。 


在 预想 外 的 时 机 发 生 的 噶 步 异 常 ， 处 理 起 来 非常 困难 。 给 异步 风 利 编写 
异常 安全 的 方法 ， 几 乎 是 不 可 能 的 。 从 我 个 人 经 验 来 讲 ， 没 有 一 次 使 用 
异步 寞 第 而 不 后 悔 的 。 


产生 异常 的 第 2 个 原则 是 文档 化 。 为 了 进行 合适 的 异常 处 理 ， 什 么 样 的 
方法 ， 产 生 了 什么 样 的 异常 ， 这 方面 的 知识 是 不 可 或 缺 的 。 不 同 于 
Java，Ruby 中 没有 受 控 异常 ， 哪 种 方法 可 能 产生 哪 种 异常 ， 有 必要 清楚 
详细 地 写成 文档 。 


异 闸 仪 仅 是 对 应 异 和 党 情况， 平津 使 用 中 不 知 不 觉 就 会 漏 挥 。 但 为 了 生产 
高 可 靠 性 的 软件 ， 恰 好 是 那些 平常 不 怎么 出 现 的 卉 常情 况 的 处 理 ， 才 显 
得 尤为 重要 。 

















* 米 米 


本 节 介 绍 了 Ruby 等 多 种 语言 所 具有 的 异 稼 处理 功能 。 肛 种 处 理 虽 然 非 
种 方便 ， 但 处 理 元 第 情况 有 几 个 需要 注意 的 地 方 。 按 照 这 次 所 学 的 规 
则 ， 请 实施 更 加 安全 的 异常 处 理 。 


安全 对 策 的 变迁 


很 久 以 前 ， 计 算 机 不 存在 安全 性 问题 。 当 然 ， 软 件 的 程序 错误 以 前 就 
和 存在。 直到 程序 错误 ， 程 序 虽 然 也 异常 终止 ,但 为 难 的 只 是 软件 使 用 
者 本 人 ， 这 算 不 上 安全 问题 。 


后 来 ， 计 算 机 通过 网 络 连接 起 来 ， 安 全 问题 一 点 一 扩 地 被 意识 到 。 
在 20 世纪 70 年 代 麻 省 理工 学 院 的 人 工 智 能 实验 室 中 ， 流 行 通 过 网 络 
在 别人 的 终端 上 玩 恶 作 剧 ， 直 到 现在 还 留 有 记录 ， 但 也 只 古 让 键盘 在 
一 段 时 间 内 不 起 作用 ， 或 是 在 画面 上 填 满 文字 ， 虽 然 也 有 点 让 人 讨 
大 ， 但 顶 多 也 就 是 闸 着 玩 那 种 水 平 。 


然而 ， 从 80 年 代 开 始 束 已 经 不 再 是 恶作剧 水 平 『。1988 年 ， 计 算 机 
通过 互联 网 互相 连接 起 来 ， 于 是 ， 英 里 斯 蠕虫 程序 也 开始 在 互联 网 上 
萤 延 开 来 。 这 种 蠕虫 通过 攻击 程序 的 几 个 程序 错误 而 得 以 扩散 ， 叉 因 














为 软件 设计 上 的 一 些 缺 陷 ， 晴 虫 以 爆炸 性 的 态势 进行 传播 ， 结 果 计 算 
机 由 于 负荷 过 重 而 导致 服务 停止 ， 现 在 这 称 为 DoS (Denial of 
Service) 攻击 。 


当前 ， 几 乎 各 种 程序 都 有 安全 问题 。 互 联网 上 的 异常 输入 ， 从 外 部 读 
取 的 数据 被 暗中 揭 鬼 ， 诸 如 此 类 导致 安全 问题 的 原因 ， 实 在 是 太 多 
了 。 日 子 变 得 不 好 过 了 。 


完全 消除 安全 问题 是 不 可 能 的 ， 只 要 还 有 那么 多 问题 ， 完 全 无 视 也 是 
不 现实 的 。 但 是 ， 有 操作 系统 和 编程 语言 等 底层 框 淋 的 文 持 ， 我 想 这 
是 否 也 减轻 了 点 程序 员 的 负担 呢 ? Ruby 由 安全 级 别 完成 数据 检查 的 
功能 就 是 这 样 的 尝试 之 一 。 





第 12 间 ”关于 时 间 的 处 理 


12.1 用 程序 处 理 时 刻 与 时 间 


时 间 是 我 们 日 常生 活 的 一 部 分 。 天 完了 ， 睁 开眼 睛 ， 吃 早饭 ， 去 公司 。 
这 样 的 生活 ， 时 时 刻 刻 都 在 剖 走 我 们 的 时 间 。 但 是 ， 时 间 里 隐藏 着 比 我 
们 的 想象 要 复杂 得 多 的 因素 。 


12.1.1 ”时差 与 时 区 


在 日 本 ， 当 太阳 公公 升 起 来 的 时 候 ， 纽 约 却 是 深 更 半夜 。 国 家 和 地 域 不 
同 ， 此 和 刻 的 时 间 也 不 相同 ， 这 称 为 时 产 。 有 海外 旅行 经 验 的 人 人， 肯定 体 
验 过 所 到 的 国家 与 日 本 之 间 的 时 间 差 异 。 


就 是 在 日 本 国内 ， 北 海道 和 东京 的 日 出 时 间 也 是 有 很 大 差别 的 。 但 随 着 
地 方 的 变化 ， 时 间 是 渐变 的 ， 这 成 为 一 件 很 采 烦 的 事 。 所 以 人 们 区 根据 
国家 和 地 区 ， 作 茶 种 统一 性 的 规定 ， 划 分 出 时 区 。 大 的 国家 ， 在 国内 残 
ee 
立 斯 加 〉。 


世界 上 时 区 的 原点 位 置 ， 在 英国 伦敦 格林 尼 治 天 文 台 。 以 前 ， 以 此 为 基 
准 的 时 间 称 为 格林 尼 治 标准 时 间 (Greenwich Mean Time，GMT) 。 最 

近 ， 好 像 * 世 界 协调 时 间 ”(Coordinated Universal Time，UTC) 这 个 叫 

法 渐渐 变 成 主流 。 


因为 日 本 是 在 英国 以 东 ， 所 以 日 本 时 间 比 英国 早 。 日 本 时 间 比 UTC 早 
9 个 小 时 ， 所 以 用 +0900 表示 。 时 区 由 行政 区 划 决 定 ， 不 能 根据 计算 求 
得 。 烦 珊 的 是 ， 还 存在 与 UTC 的 时 间 差 不 是 整 小 时 的 时 区 ， 比 如 尼 泊 
尔 〈+0545) 和 印度 (+0530) 。 


12.1.2 ”世界 协调 时 间 


格林 尼 治 标准 时 间 与 国际 协调 时 间 的 区 别 ， 不 仅仅 是 名 称 。 格 林 尼 治标 
准时 间 是 通过 观察 地 球 旋 转 来 计算 ， 而 国际 协调 时 间 是 根据 原子 时 钟 来 























计算 《从 钨 原子 的 振动 数 计算 时 间 ) 。 


但 是 ， 地 球 的 旋转 要 受到 其 他 天 体 的 万 有 引力 的 影响 ， 还 有 地 表 物 体 的 
移动 ， 特 别 是 潮汐 等 各 种 各 样 因素 的 影响 ， 会 产生 偏差。 而 不 受 这 些 因 
素 影 响 的 原子 时 钟 的 时 间 ， 为 了 与 实际 的 地 球 旋 转 相 吻合 ， 有 时 会 插入 
净 秒 ， 使 这 两 个 时 间 的 差 保持 在 0.9 秒 以 内 1 。 过 去 40 年 间 ， 共 插入 了 
15 次 国 秒 。 


1 从 原理 上 说 ， 删 除 秒 也 是 可 能 的 ， 但 目前 为 止 没有 删除 过 秒 。 好 像 地 球 的 自转 在 逐渐 变 慢 。 

















说 起 Coordinated Universal Time 的 缩写 ， 为 什么 会 是 UTC 呢 ? 大 概 是 
为 了 避免 各 语言 语序 的 不 同 〈 英 语 是 CUT; 法 语 是 TUC，Temps 
Universel Coordonne; 意大利 语 是 TCU，Tempo Coordinato Universale; 
等 等 ) ， 统 一 采用 了 这 种 语序 。 


12.1.3 夏令 时 (DST) 


还 有 ， 成 为 问题 的 夏令 时 。 这 是 因为 到 了 夏天 ， 日照 时 间 变 长 ， 太 阳 出 
来 了 还 在 睡 ， 太 浪费 。 将 时 间 错 开 以 有 效 利 用 珍贵 的 日 照 时 间 ， 夏 令 时 
就 是 基于 这 种 想法 。 呼 吁 要 节省 能 源 的 今天 ， 日 本 也 要 导入 夏令 时 的 法 
案 屡屡 成 为 话题 。 


日 本 称 夏令 时 ， 英 语 中 一 般 称 为 Daylight Saving Time (DST) 。 夏 令 时 
虽然 由 法 律 规定 ， 但 从 何 日 开始 到 何 日 为 止 适 用 夏令 时 ， 因 国家 不 同 而 
不 同 。 比 如 美国 是 从 3 月 的 第 2 个 星期 日 开始 到 11 月 的 第 1 个 星期 日 
为 止 适用 夏令 时 。 


虽说 是 “夏令 时 ”， 但 却 不 像 大 家 想 的 那样 只 适用 夏季 。 在 美国 ，2006 年 
以 前 ， 夏 令 时 是 4 一 10 月 ， 现 在 又 延长 了 ， 已 经 超过 半年 了 。 让 人 觉 
得 ， 夏 令 时 反而 成 了 主流 。 

基本 规则 说 起 来 很 简单 ， 一 定期 间 内 时 钟 拨 快 一 小 时 。 但 实际 编程 的 时 
候 ， 时 间 切 换 束 成 了 问题 。 


导入 了 夏令 时 ， 春 秋 两 回 该 如 何 调整 时 钟 ， 实 际 来 看 一 看 吧 (参见 图 
12-1) 。 作 为 例子 ， 图 12-1 显示 了 2008 年 美国 东部 时 间 (EST) 与 美 
国 东 部 夏令 时 (EDT) 之 间 的 切换 。 























01:00 03:00 04:00 
美国 东部 时 间 (EST) 二 一 | 
美国 东部 夏令 时 (EDT) | Co 





01:00 01:00 02:00 
美国 东部 时 间 (EST) | 
美国 东部 夏令 时 (EDT) 


图 12-1 夏令 时 的 开始 与 结 


夏令 时 开始 那 一 天 ， 凌 展 2 点 没有 了 。 标 准时 间 从 凌晨 1 点 59 分 直接 
跳 到 3 点 ， 时 钟 就 早 了 一 个 小 时 。 

反之 ， 结 束 那 一 天 ， 夏 令 时 的 凌晨 工 点 的 下 一 小 时 是 标准 时 间 的 凌晨 1 
点 ， 这 样 时 钟 就 慢 了 一 个 小 时 。 美 国 的 夏令 时 切换 时 间 是 凌晨 2 点 ， 但 
各 个 国家 的 法 律 规定 不 一 样 。 规 定 凌晨 1 点 的 国家 也 有 欧洲 各 国 ) ， 
规定 午夜 0 点 的 国家 也 有 (巴西) 。 

这 可 以 亲眼 确认 一 下 。Linux 中 ， 通 过 一 个 环境 变量 来 设 定时 区 ， 将 环 
We 
部 时 间 吧 。 


% export TZ=US/Eastern 


这 样 就 成 了 美国 东部 时 间 (纽约 等 地 )。 


在 这 种 状 态 下 运行 一 个 简单 的 程序 (参见 图 12-2) ， 可 以 体验 一 下 
时 区 的 移动 。 








# 2008-03-09 (3 月 第 2 个 星期 日 ) 


[[2008,3,23], [2008,11,2]] .each do |date| 
t = Time.local (*date) 
4.times do 
志 
# 显示 1 小 i 
Ep 60 
end 
puts 
end 


执行 结果 


Sun Mar 23 00:00:00 +0900 2008 
Sun Mar 23 01:00:00 +0900 2008 
sun Mar 23 02:00:00 +0900 2008 
Sun Mar 23 03:00:00 +0900 2008 


Sun Nov 02 00:00:00 +0900 2008 
Sun Nov 02 01:00:00 +0900 2008 
Sun Nov 02 02:00:00 +0900 2008 
Sun Nov 02 03 :00:00 +0900 2008 


12-2 夏令 时 移行 显示 程序 


我 个 人 经 历 过 2007 年 11 月 在 美国 北 卡罗来纳 州 举 行 的 

RubyConf (Ruby 会 议 ) 的 最 后 一 天 和 2008 年 3 月 在 捷克 的 布拉格 举行 
的 EuRuKo 的 第 二 天 ， 正 好 都 是 夏令 时 的 切换 时 间 。 两 个 会 议 的 主持 人 
在 前 一 天 ， 都 反复 强调 “明天 切换 夏令 时 了 ， 不 要 搞 错 时 间 ”。 即 便 如 
此 ， 忘 记 调 整 手 表 时 间 的 人 还 是 比比 缘 是 。 旅 馆 房间 的 时 钟 当 然 不 会 自 
动 调整 ， 除非 特别 注意 ， 而 一 不 留神 犯错 误 的 人 一 个 接 一 个 。 如 果 是 电 
a he 
是 不 可 能 的 。 


美国 大 多 数 的 州 和 欧洲 大 多 数 的 国家 ， 都 比 日 本 纬度 高 ， 冬 天 与 夏天 的 
日 照 时 间 差 别 相当 大 。 在 这 样 的 地 域 ， 实 行 夏令 时 还 是 有 它 的 好 处 的 。 
像 日 本 这 种 低 纬 度 国家 ， 实 行 夏令 时 并 没 带 来 什么 利益 ， 反 而 引起 生活 
的 变化 和 程序 的 修改 ， 全 是 成 本 。 实 际 上 ， 实 行 夏令 时 的 都 以 美国 和 欧 
洲 为 主 ， 日 本 周边 的 中 国 、 韩 国 等 也 没有 实行 。 


说 起 来 也 是 很 久 以 前 的 事 了 ，Ruby 1.4.4 的 时 候 (2000 年 左右 ) ， 处 理 
夏令 时 曾经 有 过 一 个 程序 错误 。 那 个 时 候 ，Ruby 总 算 开 始 有 欧洲 用 户 
不 断 加 入 ， 从 他 们 的 一 个 报告 里 ， 我 发 觉 了 这 个 程序 错误 。 这 是 一 个 典 
型 的 边界 条 件 错误 ， 夏 令 时 刚 开 始 和 刚 结束 的 几 个 小 时 ， 时 刻 错 了 。 由 

















于 日 本 没有 和 夏令 时 ， 我 目 己 不 能 理解 问题 ， 所 以 修正 这 个 程序 错误 人 花费 
了 好 大 劲 儿 。 从 这 次 的 教训 就 可 以 知道 ， 轻 易 地 导入 夏令 时 ， 会 导致 软 
件 问题 频 友 ， 最 坏 的 情况 会 成 为 社会 问题 ， 即 便 不 出 现 最 坏 情 况 ， 也 会 
A 
\ 敢 厨 同 。 


日 本 国内 本 来 没有 时 差 ， 也 没有 收 令 时 ， 在 时 间 运 营 方面 是 一 个 幸福 的 
国家 ， 特 意 导 入 夏令 时 ， 是 不 是 有 意 让 事态 复杂 化 呢 ? 节省 能 源 应 当 采 
用 别 的 手段 吧 。 




















12.1.4” 改 历 


我 们 使 用 的 日 历 ， 是 格 里 高 利 历 (中 国 称 公历 )。4 的 倍数 的 年 < 是 比 
平年 多 一 天 的 国 年 。 依靠 这 个 来 补正 地 球 公转 周期 和 日 历 的 偏差 。 但 
是 ， 格 里 高 利 历 并 不 是 自古 以 来 束 使 用 的 ， 过 去 曾 使 用 尤 利 乌 斯 历 。 在 
欧洲 (及 其 殖民 地 〉 ， 过 去 几 百 年 间 ， 分 别 从 尤 利 马 斯 历 ( 旧 历 ) 切换 
到 了 格 里 高 利 历 〈 新 历 ) ， 这 称 为 改 历 。 


2 正确 来 讲 ， 是 4 的 倍数 ,，“ 除 掉 不 是 400 的 倍数 而 只 是 100 的 倍数 ”的 年 。 所 以 ，2008 年 是 闽 
年 (4 的 倍数 ) ， 但 2100 年 (100 的 倍数 ) 不 是 国 年 ，2000 年 “400 的 倍数 ) 是 闲 年 。 


比如 英国 于 1752 年 9 月 改 历 。UNIX 的 cal 命令 对 应 着 英国 的 改 历 ， 

实际 看 一 看 吧 。 用 cal 命令 显示 1752 年 9 月 就 能 知道 ， 从 2 日 到 14 日 
之 间 的 日 期 有 跳跃 。 这 是 由 改 历 ， 也 就 是 日 历 切 换 所 造成 的 日 期 跳跃 。 
尤 利 乌 斯 历 和 格 里 高 利 历 差 了 那么 多 。 


主要 国家 的 日 历 切 换 如 表 12-1 所 示 。 考 虑 到 最 早 的 是 意大利 从 16 世纪 
开始 改 历 ， 到 了 20 世纪 还 有 没 改 历 的 国家 ， 这 种 对 比 真 让 人 惊异 。 


表 12-1 改 历 的 日 期 
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意大利 ”|1582 年 10 月 15 日 




















我 罗斯 


12.1.5 日 期 与 时 间 的 类 


Ruby 中 ， 表 示 日 期 与 时 间 的 类 有 很 多 。 像 下 面 这 样 ， 各 目的 功能 及 限制 
均 有 不 同 ， 有 必要 按 目 的 分 别 使 用 。 


Time 类 


表示 日 常 所 用 时 间 的 类 。 是 用 C 实现 的 内 髓 类 ， 使 用 与 POSIX 的 时 间 
相关 的 API 来 实现 。 虽 然 也 对 应 时 区 ， 但 一 个 程序 中 ， 只 能 使 用 本 地 时 
间 和 国际 协调 时 间 〈UTC) 两 个 时 区 。 能 够 表示 的 时 间 范 围 有 限制 
(1970 年 1 月 1 日 到 2038 年 1 月 19 日 ) 。 


Date 类 
表示 不 含 时 刻 的 日 期 的 类 。 使 用 时 ， 需 要 将 date 库 加 载 (require) 进 


来 。 与 Time 类 不 同 ， 其 特征 是 能 够 表示 的 范围 事实 上 没有 限制 。 改 历 
也 有 对 应 。 





DateTime 类 


Date 类 附加 上 时 间 信 息 的 类 。 能 表示 时 间 ， 而 且 没 有 范围 限制 ， 功 能 
上 最 强 ， 但 因为 是 用 Ruby 实 现 的 ， 所 以 其 性 能 有 些 让 人 担 

忧 。DateTime 类 说 到 底 还 是 在 Date 类 里 加 入 时 刻 信息 ， 与 Time 类 的 
方法 没有 互 换 性 ， 这 一 点 需要 注意 。 利 用 DateTime 类 ， 需 要 将 date 库 
加 载 进 来 。 


如 果 是 日 常 使 用 就 用 Time 类 ， 要 处 理 遥 远 的 过 去 及 未 来 的 时 刻 ， 用 
DateTime 类 比较 好 。 





Time 类 


Time 类 的 概要 如 表 12-2 所 示 。Ruby 的 Time 对 象 ， 以 POSIX 的 时 间 
函数 为 基础 而 设计 。POSIX 的 时 间 函 数 具 有 以 下 特征 。 





表 12-2 Time 类 的 主要 方法 





Time.at(time[ ,usec]) 


Time.gm(year[,mon, day,hour,min, sec]) 
Time.utc(year[,mon,day,hout,min, sec]) 


Time.local(year[,mon,day,hout,min, sec,usec]) 
Time.mktime(year[,mon,day,hout,min,sec,usec]) 


iso8661(str) 
jisx8381(str) 
rfc822(str) 
rfc2822(str) 
rfc3329(str) 
xmlschema(str) 


time > time 
time >= 七 ime 
time < time 
time <= time 
time <=> time 


time.gmt offset 
time.utc offset 
time.gmtoff 


.min 
time.hour 
time.mday 


从 经 过 的 秒 数 生 成 Time 对 象 
EFE 成 Time 对 象 〈 世 界 协 调 时 间 ) 


生成 Time 对 象 〈 当 地 时 间 ) 


成 相当 于 现在 时 刻 的 Time 对 象 


解析 字符 串 ， 生 成 一 个 Time 对 象 。 需 要 将 time 
库 加 载 进来 























依据 特定 的 格式 ， 从 字符 串 生 成 Time 对 象 。 需 
要 将 time 库 加 载 进来 








返回 n 秒 后 的 Time 对 象 
以 秒 数 返回 两 个 时 刻 间 的 差 (Float ) 


返回 n 秒 前 的 Time 对 象 








比较 时 刻 


返回 表示 时 刻 的 字符 串 
以 后 用 当地 时 间 来 表示 时 刻 
以 后 用 世界 协调 时 间 来 表示 时 刻 











时 区 设 定 为 世界 协调 时 间 时 ， 返 加 
返回 设 定 为 当地 时 间 的 新 的 Time 对 象 
回 设 定 为 世界 协调 时 间 的 新 的 Time 对 象 




















以 秒 为 单位 返回 与 世界 协调 时 间 的 时 差 








time.day 返回 time 的 各 自 部 分 


time.mon 





time.month 
time.yday 
time.year 
time.zone 


time. strftime(fmt) 按 格 式 表 示 时 刻 
以 和 为 单位 返回 tine ( 浮 点 数 ) 
ER 























tinetvsec | CV tinetvsec | 


time.monday? 

time.tuesday? 

time.wednesday? 

time.thursday? time 是 一 周 中 的 该 日 时 ， 返回 真 [1.9] 
time.friday? 

time.saturday? 

time.sunday? 


























。 以 自 某 一 固定 时 间 epoch (世界 协调 时 间 1970 年 1 月 1 日 凌晨 0 
时 ) 起 经 过 的 秒 数 表示 时 刻 。 每 次 以 此 为 基础 计算 日 期 (年 月 日 


。 不管 是 世界 协调 时 间 还 是 当地 时 间 (local time) ， 都 可 以 处 理 。 当 
地 时 间 的 时 区 可 以 由 环境 变量 来 设 定 ， 但 一 个 进程 中 不 能 在 多 个 时 
区 中 切换 。 


Ruby 及 UNIX 的 时 刻 模型 能 够 处 理 当地 时 间 和 世界 协调 时 间 。 反 过 来 
说 ， 处 于 这 两 个 时 区 以 外 就 不 能 简单 处 理 。 就 像 图 12-3 中 这 种 感觉 。 











2668 年 68 月 68 日 正午 (日 本 时 间 ) 

tl = Time.local(2888,068,068,12) 

p tl 

# 结 => Fri Aug 68 12:66:66 +6960 2668 




















2668 年 68 月 68 日 正午 (UTC) 
t2 = Time.gm(2068,68,68,12) 
P 七 2 





# 结果 => Fri Aug 68 12:66:66 UTC 2668 











图 12-3 ”执行 Time 的 local/gm 方法 


Time 对 象 可 以 设 定 是 以 当地 时 间 表 示 时 刻 ， 还 是 以 世界 协调 时 间 表 示 
(参见 图 12-4) 。 








EE 为 国际 协调 时 间 
tl.gmtime 
p tl 
# 结果 => Fri Aug 68 63:60:60 UTC 2668 








回 到 本 地 时 间 设 定 


tl.localtime 
p tl 
# 结果 => Fri Aug 68 12:66:66 +6988 2668 














图 12-4 gmtime 以 及 localtime 方法 的 执行 示例 


Linux 的 时 刻 函 数 是 引用 环境 变量 TZ 来 决定 当地 时 间 的 ， 所 以 程序 通过 
切换 环境 变量 ， 也 可 以 勉强 使 用 多 个 时 区 。 


original tz = ENV["TZ"] 
ENV[ "TZ"] = "US/Eastern" 
p Time.now # 东 部 时 间 
ENV[ "TZ"] = original tz 





p Time.now # 当 地 时 间 





但 是 ， 切 换 环 境 变量 的 副作用 很 大 (比如 说 线程 会 有 问题 )， 不 推荐 使 
用 。 


Time 类 的 方法 中 ， 含 gm 或 gmt 的 太 多 了 ， 都 是 来 自 世 界 协调 时 间 使 用 
之 前 的 格林 尼 治 标准 时 间 。Time 类 的 方法 名 是 以 UNIX 系列 时 间 函 数 
为 基础 的 ， 让 人 浮想 起 ， 原 来 UNIX 的 时 间 函 数 ， 在 确定 UTC 名 称 以 





前 就 有 了 。Ruby 中 追加 了 来 目 UTC 的 方法 别名 。 


Ruby 的 Time 对 象 ， 将 POSIX 的 时 刻 函数 与 结构 体 整 齐 地 归结 为 类 ， 

非常 便于 使 用 。 不 是 将 整数 值 解 释 为 时 刻 ， 而 是 “时 刻 就 是 时 刻 ? 的 处 理 
方式 ， 这 是 很 可 贵 的 。 最 难 能 可 喧 的 是 ，Ruby 全 体 在 表示 时 刻 的 部 分 
中 都 用 Time 对 象 。 所 以 ， 








p File.mtime("ChangeLog") 
# => Tue Jul 68 15:64:67 +6966 26068 





能 明确 地 表示 成 时 间 。 如 果 像 <1215497047” 这 样 表 示 成 秒 数 的 话 ， 直 觉 
上 看 不 出 这 是 什么 时 候 吧 。 


12.1.6 ”2038 年 问题 





虽然 Time 类 是 如 此 方便 的 一 个 好 类 ， 但 关于 时 间 ， 要 照顾 到 方 方 面 
SE 00 
限 。 


不 仅 限 于 UNIX， 很 多 的 操作 系统 中 ， 都 是 以 过 去 某 个 时 点 开始 所 经 过 
时 间 来 表示 时 刻 的 。 与 人 们 习惯 的 以 年 月 日 的 组 合 来 表示 时 刻 形 成 对 
照 。 在 UNIX 中 ， 过 去 某 个 时 点 是 指 1970 年 1 月 1 日 凌晨 0 时 (UTC) 。 


比如 Ruby 的 诞生 日 (1993 年 2 月 24 日 ) 的 日 本 时 间 中 午 ， 计 算 机 中 
以 730522800 这 个 数字 来 表示 。Ruby 中 可 以 用 以 下 代码 确认 。 




















p Time.local(1993,2,24,12,060).to i 
# => 730522860 


问题 是 ， 计 算 机 能 够 处 理 的 整数 ， 大 小 有 限制 。 如 果 系 统 的 整数 是 32 
位 (二 进 制 ) 带 符号 整数 的 话 ， 能 够 表示 的 最 大 整数 是 2147483647， 
最 小 整数 是 ?2147483648。 虽 然 看 上 去 是 21 亿 多 这 么 一 个 挺 大 的 数 ， 实 
际 上 却 是 连 全 人 类 的 人 口 数 都 不 能 表示 的 很 小 的 数 。 如 果 用 秒 数 来 数 这 
么 一 个 并 不 很 大 的 数 ， 从 刚才 所 说 的 1970 年 1 月 1 日 凌晨 0 时 开始 





数 ， 界 限 是 在 2038 年 1 月 19 日 (星期 二 ) 3 时 14 分 7 秒 (UTC) 。 


结果 ，32 位 系统 中 的 Time 类 的 对 象 ， 只 能 表示 1970 年 1 月 1 日 到 
2038 年 1 月 19 日 的 范围 3 。 也 就 是 说 ，1970 年 以 前 出 生 的 人 连 自己 的 
生日 都 不 能 表示 。 


3 这 是 秒 数 是 正 数 的 情况 。POSIX 标准 中 虽然 没有 明示 ， 使 用 负 秒 数 的 平台 也 很 多 ， 包 括 Linux 
在 内 的 这 种 平台 ， 过 去 的 时 间 可 以 表示 到 1902 年 12 月 。 


过 去 当然 是 一 个 重要 问题 ， 但 未 来 的 问题 则 更 为 严重 。 完 全 不 能 处 理 
2038 年 1 月 以 后 的 时 间 。 离 2038 年 虽然 还 有 30 年 ， 但 在 银行 贷款 的 计算 
等 情况 下 ，30 年 以 后 的 时 间 已 经 现实 性 地 慢 慢 迫近 了 。 如 果 完 全 不 能 
行 这 些 计 算 的 话 ， 情 况 就 不 乐观 了 。 类 比 1999 年 左右 闹 得 沸沸扬扬 
的 “2000 年 问题 ”， 这 个 问题 有 时 被 称 作 “2038 年 问题 ”。 


到 那 时 候 ， 是 不 是 所 有 操作 系统 都 变 成 64 位 了 ? 和 希望 是 那样 。 如 果 表 
示 时 刻 的 整数 变 成 64 位 了 ， 问 题 就 会 延 后 很 久 很 入 。 到 公元 
292277026596 年 12 月 4 日 (星期日) 15 时 30 分 7 秒 (UTC) 为 止 都 
不 会 有 问题 。 这 个 未 来 时 间 已 经 用 图 12-5 的 程序 确认 了 。 




















EO 最 大 带 符号 的 64 位 整数 
last = (1<<63)-1 
puts Date.new3(1970,1,1)+(last/ (24*60*60)) 
# => 292277026596-12-04 
p (last%$(24*60*60) /3600) 公元 2922 亿 年 
非 => 5 
p {last$(24*60*60)$%®%3600/60) 
# => 30 

p (last%(24*60*60)%3600%60) 
关 二 > 7 








图 12-5 64 位 时 间 的 界限 

也 只 有 没有 限制 整数 大 小 的 Ruby 才能 这 样 轻松 地 计算 。 这 个 暂且 不 说 
了 ， 公 元 2922 亿 年 ， 有 点 超越 想象 了 。 和 希望 2038 年 之 前 计算 机 操作 系 
统 都 能 够 转变 成 64 位 。 


12.1.7 DateTime 类 





相对 于 以 epoch《〈 某 个 时 点 ) 开始 的 秒 数 来 管理 的 Time 类 ，DateTime 
类 是 以 日 期 为 基础 计算 的 Date 类 ， 附 加 上 时 刻 信息 而 生成 的 。Date 类 
以 日 为 单位 来 表示 《〈 光 赁 这 一 点 台 有 24x60x60=86400 倍 的 分 解 能 

力 ) ， 而 且 用 Ruby 的 多 倍 长 整数 ， 事 实 上 能 够 处 理 无 限 的 范围 。 与 
Time 类 比 起 来 ，DateTime 的 不 同 点 在 于 API 与 时 区 。 


首先 是 API，DateTime 类 是 表示 日 期 的 Date 类 附加 上 时 刻 信 息 。 嗓 
里 曼 嗪 再 重复 一 遍 ， 与 Time 类 没有 互 换 性 。 

其 次 是 时 区 ，DateTime 类 虽然 理解 与 UTC 的 时 差 ， 但 没有 时 区 的 概 
念 。 做 一 个 新 的 DateTime 对 象 ， 默 认 值 是 生成 一 个 与 现在 UTC 有 时 
差 的 当地 时 间 的 DateTime 对 象 。 


使 用 DateTime 类 ， 需 要 将 date 库 加 载 进 来 。DateTime 类 的 概要 示 
于 表 12-3 审 。 


表 12-3 ”DateTime 类 的 主要 方法 











DateTime.civil([year,mon,mday,hour,min, sec,offset,start]) 生成 相 兰 忆 记 关 籽 旧 
DateTime.new([year,mon,mday,hour,min,sec,offset,start]) DateTime 对 象 


生成 相当 于 商业 日 
DateTime 对 象 
生成 相当 于 尤 利 乌 斯 日 
期 的 DateTime 对 象 
生成 相当 于 现在 时 刻 的 
DateTime 对 象 


生成 相当 于 年 日 期 的 
DateTime 对 象 

















解析 字符 串 ， 生 
成 DateTime 对 象 





按 指定 格式 从 字符 串 生 
成 DateTime 对 象 


DateTime.iso8661(str) 
DateTime.Jjisx6361(str) 按 指 定格 式 从 字符 串 生 
DateTime.rfc822(str) 成 DateTime 对 象 ， 需 要 
DateTime.rfc2822(str) 将 date/format 库 加 载 进 


DateTime.rfc3339(str) 
DateTime.xmlschema(str) 


实例 方法 


datetime . sec 











datetime .min 
datetime .hour 
datetime .mday 
datetime .day 
datetime .mon 





返回 datetime 的 该 部 分 


datetime.month 
datetime.yday 


datetime .year 
datetime .zone 


以 有 理 数 返 回 1 秒 以 下 的 
atetime.sec fraction 单位 


返回 设 定 了 新 时 差 的 
DateTime 对 象 。offset 指 

datetime.new_offset(offset) 定 为 有 理 数 (1 小 时 作为 
1/24) 或 +0900 这 样 的 字 
符 串 


CT 
datetime.strftime 按 特 定格 式 显 示 时 刻 


datetime .zone 返回 表示 时 区 的 字符 串 


datetime.iso8661 返回 将 datetime 格式 化 后 
datetime.jisx6361 的 字符 串 ， 需 要 
datetime.rfc3339 将 date/format 库 加 加 载 
datetime.xmlschema 进来 
































作为 使 用 Date 类 的 例子 ， 有 一 个 计算 天 数 的 程序 。 图 12-6 是 一 个 计算 
从 Ruby 诞生 以 来 经 过 了 多 少 天 的 程序 。 


require 'date' 


# 今天 Ruby 诞生 多 少 天 了 ? 
ruby = DateTime.new(1993,2,24) 


today = DateTime.now 
printf "今天 Ruby 诞生 %d 天 \n",(today - ruby).to i 














图 12-6 计算 Ruby 诞生 以 来 所 经 历时 间 的 程序 
输出 类 似 于 “今天 是 Ruby 诞生 的 第 5612 天 ”。 
12.1.8 Time 与 DateTime 的 相互 变换 


Time 与 DateTime 很 相似 ， 但 API 不 同 ， 不 能 使 用 Duck Typing 互相 
蔡 换 。 


Ruby 1.9 中 ，Time 类 与 DateTime 类 分 别 追 加 了 to _time 方法 和 
to_datetime 方法 ， 使 用 这 些 方法 ， 可 以 把 对 象 的 类 统一 起 来 。 另 
外 ， 这 两 个 方法 在 Ruby on Rails 的 ActiveSupport 库 里 也 提供 ，Rails 用 


户 不 用 等 1.9 版 本 就 可 以 使 用 。 


米 米 米 


时 间 和 日 历 虽 然 大 家 每 天 都 接触 ， 但 实际 编 起 程序 来 ， 却 有 各 种 各 样 不 
为 人 知 的 细节 。Ruby 中 ， 有 了 Time 类 和 DateTime 类 ， 不 必 太 钻研 这 
些 细节 就 能 够 操作 时 间 。 


时 间 的 难点 
几乎 所 有 人 都 认为 时 间 很 简单 ， 从 过 去 到 未 来 ， 水 不 停 明 一 直 在 流 
动 。 如 果 不 考虑 宇宙 大 爆炸 之 前 有 没有 时 间 这 些 疑 难 问题 ， 这 个 认识 
基本 是 事实 。 
0 0 





首先 介绍 “想当然 ”的 问题 。 不 久 以 前 有 “2000 年 问题 ?这 是 由 于 以 公 
元 纪年 的 后 两 位 来 表示 年 ， 到 了 21 世 纪 ， 数 字 反 而 变 小 了 。 也 许 当时 
的 软件 开 及 人 员 没 想到 那 时 开发 的 程序 居然 能 用 到 21 世 纪 吧 。21 世 纪 
其 实 并 没有 想象 中 那么 遥远 。 说 实话 ， 本 来 以 为 21 世 纪 会 更 加 发 达 一 
些 呢 ， 可 现在 连 铁 臂 阿 童 木 都 还 没有 诞生 的 迹象 呢 。 


对 于 时 间 的 另 一 个 想当然 的 问题 ， 是 “2038 年 问题 ”。 正 文中 已 经 介绍 
过 了 ， 为 了 表示 时 间 ， 使 用 从 某 一 原点 (1970 年 1 月 1 日 ) 开始 的 秘 
数 ， 结 果 令 人 意外 地 很 早 就 到 达 了 32 位 整数 的 极限 。 这 也 是 由 于 “ 想 
当然 ”而 造成 的 问题 。 


还 有 ,日 历 也 是 一 个 麻烦 的 问题 。 现 在 我 们 使 用 的 历法 ， 是 称 为 格 里 
高 利 历 的 太阳 历 ， 为 了 补正 地 球 的 自转 时 间 和 公转 时 间 的 偏差 ，4 年 1 
次 搞 一 个 366 天 的 国 年 ， 但 这 又 有 一 点 补正 过 头 了 ， 于 是 100 年 里 又 有 
一 次 4 的 倍数 不 是 半年 的 年 ， 这 还 没完 ，《〈100 的 倍数 中 ) 400 年 里 还 
是 有 一 次 装 年 。 真 是 太 麻 烦 了 。 而 且 ， 世 界 上 并 不 是 全 都 使 用 同一 种 
历法 。 伊 斯 兰 国 家 直到 现在 ， 还 在 使 用 以 月 亮 的 圆 缺 为 基准 的 太阴 

历 。 历 史上 ， 历 法 被 政治 所 利用 的 事件 很 多 ， 古 罗马 手 帝 为 了 让 以 自 
己 姓 名 命名 的 两 个 月 〈July 与 August) 更 突出 ， 让 本 来 意思 是 8 月 的 

October 挪 到 了 10 月 。 














时 间 还 有 时 差 的 问题 。 我 们 曾 试图 让 Ruby 的 开发 人 员 集 中 起 来 ， 开 
一 次 网 上 会 议 ， 但 因为 大 家 分 别 住 在 日 本 、 美 国 以 及 欧洲 的 不 同 地 
a i 
很 犹 殉 。 


仔细 想 想 这 些 ， 就 会 发 现 人 类 的 时 间 标 记 系 统 真是 奇妙 。1 天 用 2 组 
12 个 小 时 表示 ，1 小 时 有 60 分 ，1 分 有 60 秒 ， 二 进 制 与 60 进 制 混 
ee 











没 想到 还 真有 人 这 么 决定 了 。 那 就 是 瑞士 的 斯 沃 琪 公司 所 提倡 的 新 的 
时 间 表 示 法 “斯 沃 琪 互联 网 时 间 ”。 将 /1000 天 定 为 一 个 单位 ， 称 为 比 
托 。1 比 托 相 当 于 1 分 26.4 秒 。 时 间 用 @517 这 样 的 方式 来 表示 。 这 
表示 一 天 开始 后 ， 过 了 42600.8 秒 。 互 联网 时 间 没 有 时 差 ， 一 天 的 开 
始 由 斯 沃 琪 公司 所 在 地 的 瑞士 时 间 来 决定 。 


> .0 
关 受 ， 





第 13 草 ”关于 数据 的 持久 化 


13.1 持久 化 数据 的 方法 


Ruby 程序 中 的 对 象 ， 与 现实 世界 中 的 “ 物 ” 不 同 ， 只 存在 于 计算 机 的 内 
存 中 。 所 以 ， 一 旦 程序 的 执行 完成 了 ， 内 存 就 会 被 回收 ， 对 象 也 随 之 灰 
这 里 ， 就 需要 把 必要 的 数据 保存 在 文件 里 ， 以 便 下 次 还 可 以 再 
读 出 来 。 


但 是 ， 还 有 这 么 一 个 世界 ， 数 据 不 随 进程 一 起 消失 。 比 如 ， 应 该 称 为 面 
向 对 象 鼻 祖 的 Smalltalk 程序 。Smalltalk 中 ， 每 次 执行 结束 时 ， 程 序 的 
执行 状态 都 被 保存 在 称 为 “映像 ”的 文件 里 ， 下 次 执行 时 ， 能 够 恢复 成 与 
上 次 完全 相同 的 对 象 状 态 。 


这 样 的 话 ， 保 存 到 文件 的 概念 就 没什么 必要 了 ， 只 要 做 一 个 普通 的 对 
象 ， 然 后 就 原封 不 动 地 “持久 化 ”。 也 就 是 说 ， 所 有 的 对 象 都 具有 超越 进 
程 的 寿命。 这 是 一 个 理想 的 世界 ， 但 反 过 来 讲 ， 则 是 做 了 一 个 封闭 于 
Smalltalk 的 世界 。 如 果 系 统 全 都 是 由 Smalltalk 构成 的 倒 还 好 ， 但 如 果 
想 与 其 他 系统 协作 的 话 ， 就 会 有 许多 许多 的 麻烦 。 


我 们 住 在 使 用 Ruby 的 世界 里 ， 这 个 世界 与 Smallltalk 人 不同， 还 是 有 必 
要 将 数据 (对象) 保存 到 文件 里 。“ 将 数据 保存 到 文件 里 *"， 这 种 说 法 很 
生硬 ， 于 是 就 套用 一 个 说 法 ， 称 之 为 “持久 化 ”。 


13.1.1 保存 文本 


如 果 保 存 的 数据 是 文本 的 话 ， 问 题 就 简单 了 。Linux 等 UNIX 系列 的 操 
作 系 统 中 ， 能 够 用 文本 表示 的 东西 〈 字 符 串 ) 可 以 简单 地 放 到 文件 里 。 
Ruby 的 I0 类 (及 其 子 类 File 类 ) 是 实现 文本 输入 输出 功能 的 类 ， 比 
如 将 hello world 字符 串 写 入 到 文件 ， 再 读 出 的 程序 示 于 图 13-1。 

















data = "hello world\n" 

# 往 当前 目录 的 data 文件 里 写 入 

open("./data","w"){|f| 
f.write data 


} 





# 从 data 文件 中 读 出 
open("./data","r"){|f| 
data = f.read 


} 








图 13-1 文本 输入 输出 程序 的 示例 


本 来 文本 处 理 就 是 Ruby 这 种 脚本 语言 的 主要 目的 之 一 ， 所 以 Ruby 对 
这 样 的 处 理 很 拿手 。 


13.1.2 ”变换 成 文本 的 Marshal 


那么 ， 如 果 写 入 或 读 取 的 数据 不 是 单纯 的 字符 串 ， 而 是 数组 或 对 象 的 情 
况 ， 那 么 该 怎么 办 呢 ? 


正如 刚才 所 说 的 ，UNIX 系列 操作 系统 中 ， 文 件 可 以 看 做 是 文本 数据 的 
容器 。Windows 中 也 一 样 。 惑 是 说 ， 将 对 象 按 一 定 的 方式 变换 为 文本 ， 
就 可 以 保存 到 文件 中 去 。 这 样 的 对 象 文 本 人 化， 就 称 为 serialize (序列 
化 ) ， 或 是 marshal 〈 封 送 处 理 ) 。 


根据 字典 ，serialize 是 序列 化 ， 按 顺序 排列 的 意思 ， 表 示 将 对 象 置换 为 
字 节 的 排列 。 另 外 ，marshal 意思 是 将 军队 整 列 ， 与 serialize 意思 是 一 
样 的 。 








Java 中 和 使 用 serialize 这 个 词 ， 而 Ruby 中 多 称 为 marshal。serialize 这 
个 词 在 并 行 处 理 中 用 于 完全 不 同 的 意思 。 为 了 不 至 于 引起 误解 ， 这 里 使 
用 marshal 这 个 词 吧 。 


marshal 比 表 面 上 看 起 来 要 麻烦 。 对 象 一 般 含 有 对 其 他 对 象 的 引用 。 由 
于 引用 ， 多 个 对 象 连接 起 来 ， 有 时 多 个 对 象 引用 一 个 对 象 〈 参 见 图 13- 
2 











从 各 处 被 参照 
的 对 象 





图 13-2 ”对 象 的 marshal 较 难 的 例子 


单纯 将 对 象 的 引用 都 保存 起 来 的 做 法 ， 会 引起 多 次 引用 的 对 象 被 保存 多 
次 的 问题 ， 更 有 其 者 ， 在 循环 引用 的 时 候 ， 有 可 能 陷于 无 限 循环 。 


13.1.3 ”使 用 Marshal 模 块 
标准 Ruby 中 ， 骨 入 了 marshal 功能 ， 这 就 是 Marshal 模块 。 
Marshal 模块 中 ， 提 供 了 几乎 能 将 全 部 Ruby 对 象 变 为 字 节 串 的 方法 


dump ， 以 及 将 字 节 串 恢 复 成 原 对 象 〈 的 复制 ) 的 1oad 方法 (参见 表 
13-1) 。 








表 13-1 MiniDB 的 类 方法 
方法 名 内 容 


dump(object [,io][, 1imit]) 将 object 与 它 所 引用 的 对 象 变换 为 字 节目 
























































以 dump 变换 而 得 的 字 节 串 《〈 字 符 串 ) ， 或 保存 这 种 字 节 串 的 
load(from [,proc]) 0 返回 与 原来 (dump 前 ) 的 对 象 状态 相同 的 
到 


简单 说 明 一 下 dump 和 load 的 使 用 方法 吧 。 





dump 的 第 2 个 参数 指定 为 I0 对 象 时 ， 就 把 变换 结果 写 到 该 I0 对 象 。 


侍 则 ， 返 回 变 换 后 的 字 节 串 。 如 果 指 定 了 整数 1imit ， 那 么 在 逐 层 深 
入 处 理 被 引用 的 对 象 时 ， 遇 到 对 象 的 连锁 深度 比 Limit 还 大 的 情况 ， 
就 产生 有 异常 。 


1oad 的 第 2 个 参数 指定 为 处 理 对 象 proc 的 时 候 ， 对 复原 的 各 个 对 象 都 


要 调用 proc 。 


使 用 Marshal， 可 以 把 复杂 结构 的 数据 简单 地 写 入 文件 。 当 然 ， 像 图 13- 
2 人 同一 个 对 象 多 次 引用 ， 以 及 循环 引用 的 情况 也 都 
能 应 对 。 


因为 Marshal 知道 基本 的 对 象 构 造 ， 所 以 Marshal 模块 的 dump 方法 会 
和 像 图 13-3a 那样 ， 使 用 起 来 特别 
[名 -二 。 

这 里 obj 对 象 以 及 它 所 引用 的 全 部 对 象 被 变换 为 文本 ， 赋 值 给 data 。 
直接 输出 到 文件 时 ， 程 序 如 图 13-3b 所 示 。 这 种 情况 下 ， 变 换 结 果 不 存 
入 内 存 而 是 直接 写 入 文件 ， 效 率 有 明显 提高 。 


读 取 dump 转 储 下 来 的 数据 ， 程 序 如 图 13-3c 所 示 。obj2 被 赋值 为 原 对 
象 的 一 个 副本 。 从 文件 读 取 时 ， 程 序 如 图 13-3d 所 示 。 


(a) 变换 成 字符 串 
data = Marshal.dump(objJj) 




















(b) 输出 到 文件 
f = open("/tmp/data","w") 
Marshal.dump(obj, f) 


(c) 读 取 
obj2 = Marshal.1load(data) 





(d) 从 文件 中 读 取 
f = open("/tmp/data", "r") 
obj2 = Marshal.1load(f) 


(e) 深 复制 
obj2 = Marshal.load(Marshal.dump(obj)) 





图 13-3” ”Marshal 的 使 用 方法 


像 这 样 使 用 Marshal， 对 象 可 以 简单 地 保存 到 文件 里 。 
13.1.4 复制 有 两 种 方式 
使 用 Marshal， 可 以 完成 对 象 的 深 复制 《deep copy) 。 


复制 对 象 的 时 候 ， CE 方法 。 这 种 情况 下 ， 只 复制 直接 对 
象 ， 引 用 的 对 象 不 复制 。 这 称 为 浅 复制 (shallow copy) 。 


而 深 复制 连同 引用 对 象 也 一 起 进行 递归 复制 。 使 用 Marshal 可 以 像 图 
13-3e 那样 实现 深 复制 。 


13.1.5 ”仔细 看 Marshal 的 格式 


Marshal 用 二 进 制 形式 将 对 象 文本 化 。 所 以 ， 并 不 能 直接 看 明白 是 什么 
意思 。 但 想 要 看 转 储 下 来 的 数据 内 容 的 情况 也 不 很 多 ， 因 而 问题 也 不 
大 。 为 了 满足 那些 想 看 的 人 ， 将 Marshal 的 数据 格式 列 于 图 13-4 与 表 
13-2 中 。 图 13-5 显示 了 一 个 Marshal 数据 的 例子 ，Marshal 就 输出 这 样 
的 二 进 制 数据 。 


[major][minor][obJject]... 








maJjor :文件 格式 主 版 本 (Ruby 1.8.6 
minor :文件 格式 次 版 本 (Ruby 1.8.6 











object:[ 类 型 ][ 类 型 固有 表示 ] 





图 13-4 ”Marshal 数据 的 格式 ， 从 先头 开始 ， 依 次 为 major、minor、object 
表 13-2 构成 Marshal 数 据 的 类 型 一 览 


CT 


对 象 、 类 实例 变量 、 名 称 、 值 





i | 小 整数 (Fixnum) 值 
f “| 浮 点 数 (Float) 值 








1 大 整数 ” (Bignum) 值 
| 
/| 正则 表达 式 ”长度 、 模 式 

[| 数组 数组 长 度 、 值 
人 “| 险 希 表 长度、 名 称 、 值 

Ss | 结构 体 (Stmct) 长 度 、 名 称 、 值 

:| 符号 名 (symbol) 长 度 、 名 称 

1 | 茎 有 符 呈 名 CqmbD i | 
I “| 类 实例 变量 对 象 、 数 、 名 称 、 值 

@ “| 参照 i 


#dump 以 下 () 内 数据 
p Marshal.dump([1,"2",{3=>4,5=>6}]) 

# 结 果 如 下 

#"\60604\616[ \616i\6866\"\80662{\68607i\612i\813i\81060i\811" 









































# 以 上 结果 的 意义 如 下 。 (\nnn 表示 八进制 数 ， 参 照 表 13-2) 


N\664 主 版 本 4 

\616 次 版 本 8 

[\616 长 度 3 的 数组 <8 = 3 + 5> 
1N\666 整数 1<6 = 1 + 5> .. .第 1 要 素 
N\"\666 长 度 1 的 字符 串 <6 = 1 + 5> .. .第 2 要 素 
2 长 度 2 的 文本 

{\667 长 度 2 的 哈 希 <7 = 2 + 5> ... 第 3 要 素 
i\612 整数 5<16 = 5 + 5> .. . 键 
iiN\613 整数 6<11 = 6 + 5> ... 值 
i\610 整数 3<8 = 3 + 5> ... 键 
i\811 整数 4<9 = 4 + 5> ... 值 























# 以 上 例子 中 ， 整 数 是 通过 独特 的 变换 方法 来 < 表示 > 的 


6 "0" 

1~122 "n + 5" 

-123~-1 "(n - 5) & exff" (位 运算 ) 
上 述 以 外 "长 (1-4) ， 最 大 4 字 节 " 























图 13-5 ”Marshal 数据 的 具体 例子 

Ruby 版 本 不 同 ，Marshal 的 变换 格式 也 完全 不 同 ， 所 以 对 同一 对 象 进行 
写 入 和 读 出 时 必须 使 用 Ruby 的 同一 版 本 。 但 是 ， 同 一 主 版 本 内 ， 数 据 
具有 向 下 兼容 性 。 
Marshal 的 格式 现 已 相当 稳定 ， 最 近 多 年 来 没有 变化 。 
13.1.6 不 能 保存 的 3 类 对 象 
Marshal 在 实现 上 有 限制 。 以 下 3 类 对 象 不 能 保存 。 

。 定义 了 特异 方法 的 对 象 。 

。 输入、 输出 或 是 套 接 字 〈Socket) 等 不 能 超越 进程 保存 的 对 象 。 

。 在 扩充 库 中 定义 ，Ruby 不 知道 保存 方法 的 对 象 。 


Marshal 按 类 进行 封 送 处 理 ， 所 以 ， 它 不 能 处 理 含有 “特异 方法 ”的 对 
象 ， 因 为 这 些 方法 的 信息 不 属于 任何 类 。 


输入 、 输 出 及 套 接 字 等 对 象 ， 只 在 特定 进程 单位 内 有 效 ， 不 可 能 对 它们 
进行 合适 的 Marshal。 比 如 ， 进 程 一 旦 终止 ， 文 件 或 许 被 更 改 ， 或 许 被 
删除 ， 不 可 能 恢复 到 原来 状态 。 


最 后 ， 由 扩展 方法 定义 的 对 象 ， 由 于 构成 Marshal 的 子 程序 不 知道 封 送 
处 理 的 方法 ， 所 以 也 不 是 封 送 处 理 的 对 象 。 


但 是 ， 即 使 不 能 够 封 送 处 理 ， 若 不 是 像 输入 输出 那 种 从 原理 上 不 可 能 的 
情况 ， 单 纯 是 不 知道 封 送 处 理 方法 的 话 ， 重 新 教 一 过 也 就 行 了 。 
Marshal 为 用 户 定义 对 象 提供 了 封 送 处 理 的 方法 。 用 户 为 每 一 个 类 定义 
一 个 用 于 封 送 处 理 的 marshal_dump 和 用 于 复原 的 marshal_load 方法 
就 可 以 了 。 

如 有 果 想 要 dump 的 对 象 定义 了 marshal_dump 方法 ，Marshal.dump 就 
使 用 该 方法 的 结果 进行 dump 。marshal_dump 返回 含有 以 后 复原 时 必 
要 信息 的 值 ， 这 个 值 被 写 入 封 送 处 理 dump 转 储 下 来 的 数据 中 。 


如 果 想 要 复原 的 对 象 定义 了 marshal 1oad 方法 ， 就 用 对 应 的 



































marshal_dump 生成 的 数据 为 参数 ， 调 出 对 象 的 marshal 1oad 方 
法 。marshal_dump 与 marshal 1oad 的 使 用 方法 示 于 图 13-6 中 。 


class Foo 
def initialize(a,b) 
@a = a 
@b = b 
end 
def marshal dump 
[@a,@b] #@a,@b 的 值 以 数组 形式 dump 


end 


def marshal load(data) 
@a = data[8] # 用 保存 的 值 进行 初始 化 





@b = data[1] 
end 
end 











图 13-6 marshal dump 和 marshal_load 的 使 用 方法 


13.1.7 ”制作 面 问 对 象 数据 库 


使 用 Marshal 保存 对 象 ， 使 对 象 具 有 了 持久 性 。 所 以 ，Marshal 也 可 应 
用 于 面向 对 象 数 据 库 。 


PStore 库 (persistent store， 对 象 持久 性 保存 ) 是 Marshal 的 用 例 之 一 。 
Marshal 虽然 只 是 将 数据 变换 为 字 市 串 ，PStore 却 利 用 了 这 一 点 ， 人 简单 
地 实现 了 面 同 对 象 数 据 库 。 


因为 对 象 的 封 送 处 理 这 一 最 麻烦 的 部 分 交 给 了 Marshal 模块 ， 即 使 包含 
注释 和 空 行 ，PStore 也 只 是 一 个 仅 有 400 行 左右 的 小 型 库 。PStore 是 作 
为 Marshal 的 用 例 来 开发 的 ， 原 型 只 有 100 多 行 ， 我 只 用 了 一 个 晚上 就 
完成 了 。 


PStore 有 3 个 特征 : 使 用 Marshal， 可 以 原封 不 动 地 保存 任意 的 Ruby 对 
象 ， 具 有 容易 使 用 的 接口 ， 有 事务 处 理 (transaction) 。 


事务 是 数据 库 的 处 理 单位 。 它 是 防止 数据 库 变 为 不 完整 状态 的 一 种 机 
制 。 事 务 如 果 没 有 问题 正常 完成 的 话 ， 其 结果 将 正常 写 入 数据 库 ;如果 
由 于 某 种 原因 《比如 异常 ) 中途 失败 ， 数 据 库 的 状态 就 是 事务 处 理 开始 


前 的 状态 ， 没 有 变化 。 


PStore 也 有 缺点 。 它 不 适合 一 下 子 将 数据 全 部 读 入 内 存 的 大 规模 数据 
库 。 但 几 百 字 市 的 小 规模 数据 库 ， 应 该 没 问 题 。 





13.1.8 ”试用 Pstore 


按照 顺序 尝试 一 下 使 用 PStore 对 象 吧 。 


(a) 打开 数据 库 
db = PStore.new(path) 





(b) 开始 事务 处 理 


db.transaction{ 


} 
(c) 对 象 的 登录 与 取得 





db["foo"] = object # 对 象 的 设 定 
db["bar"] # 对 象 的 取得 





(d) 对 象 名 的 确认 
db .roots #root 名 一 览 
db.root?("foo") #root 名 foo 存在 时 为 真 











图 13-7 PStore 的 使 用 方法 
打开 数据 库 


首先 像 图 13-7a 那样 打开 数据 库 ， 得 到 一 个 Pstore 数据 库 对 象 。 图 中 
的 path 指定 数据 库 文 件 的 路 径 。 


开始 事务 处 理 

如 前 所 述 ， 事 务 是 数据 库 处 理 的 单位 。 对 数据 库 的 处 理 是 以 事务 为 单位 
写 入 ， 如 果 处 理 途 中 发 生 了 异常 ， 数 据 库 的 状态 将 保持 在 事务 处 理 前 的 
状态 。 事 务 处理 通 过 在 transaction 方法 中 指定 块 来 开始 (参见 图 13- 
7b) 。 


从 块 中 退出 ， 事 务 处 理 就 结束 了 。 





对 象 的 登录 和 取得 


PStore 对 象 可 以 作为 一 种 哈 希 值 来 处 理 。 像 图 13-7c 那样 ， 对 象 的 登 
录 和 取得 用 [ ] 方 法 。 


但 是 ，PStore 与 哈 希 表 还 有 区 别 ， 如 果 对 象 的 名 字 没 有 登录 就 取得 ， 
， 这 样 如 果 不 知道 一 个 名 字 是 否 在 数据 库 里 登录 过 ， 就 有 必要 
确认 一 下 。 


取得 数据 库 中 登录 的 全 部 对 象 名 ， 用 roots 方法 ; 检查 某 一 名 称 的 
root 〈 根 ) 是 否 登录 了 ， 用 root? 方法 (参见 图 13-7d) 。 


事务 处 理 成 功 时 对 象 的 写 入 ， 是 把 带 名 称 的 对 象 作为 根来 进行 的 ， 这 区 


是 root 这 个 词 的 来 源 。 
事务 处 理 的 终止 


transaction 方法 中 指定 的 块 执行 完 之 后 ， 事 务 处 理 目 动 终止 ， 数 据 
库 所 引用 的 全 部 对 象 的 状态 都 写 入 文件 。 


在 事务 处 理 的 过 程 中 ， 也 有 强制 性 终止 的 方法 。commit 方法 正常 结束 
事务 处 理 ， 所 以 ，commit 后 的 执行 位 置 束 跳 到 transaction 方法 所 指 
定 块 的 末尾 。abort 方法 强制 结束 事务 处 理 后 ， 也 在 执行 位 置 跳 

到 transaction 方法 所 指定 的 块 的 末尾 ， 这 一 点 上 与 commit 相同 ， 但 
数据 库 的 变更 不 写 入 数据 库 ， 而 是 取消 。 


在 CGI 等 多 进程 环境 中 使 用 PStore 时 ， 需 要 将 数据 文件 加 

锁 。PStore 在 内 部 自动 使 用 flock 进行 专用 控制 ， 这 一 点 可 以 放心 使 
用 。 但 是 ，PStore 没有 实现 相同 进程 中 的 多 个 线程 同时 访问 的 专用 控 
制 。 线 程 间 的 专用 控制 是 程序 员 的 责任 。 


数据 库 内 对 象 的 引用 与 更 新 ， 一 定 要 在 事务 内 进行 。 在 事务 处 理 中 途 取 
出 的 对 象 ， 在 事务 之 外 改变 其 状态 虽然 不 出 错 ， 但 这 一 变更 不 会 反映 到 
数据 库 中 (参见 图 13-8) 。 























db data = nil 
db.transaction { 

db["foo"] = [1,2,3] 

db data = db["foo"] # 取 出 
} 

















# 事务 处 理 终止 




















# 可 以 访问 事务 处 理 内 的 数据 
p db data[6] # 输 出 [1] 




















# 虽然 可 以 更 新 数据 ,但 不 反映 到 DB 里 
p db data[6] = 42 























图 13-8 ”事务 处 理 终止 后 访问 数据 库 内 对 象 的 示例 
简单 说 明 一 下 事务 处 理 的 步骤 。 

1. 用 flock 将 数据 文件 加 锁 。 

2. 用 Marshal 从 数据 文件 中 读 取 数 据 。 

3. 执行 (事务 处 理 ) 块 。 

4. 块 的 执行 成 功 时 ，Marshal 将 数据 写 入 数据 文件 。 
5. 块 的 执行 失败 时 ， 什 么 也 不 做 。 


实际 上 ， 还 应 有 备份 文件 的 生成 、 错 误 处 理 等 步骤 ， 要 更 复杂 一 些 ， 但 
基本 上 是 这 样 的 。 


使 用 Pstore 的 示例 程序 参见 图 13-9。 这 个 程序 从 标准 输入 接受 名 称 ， 
然后 将 各 名 称 的 出 现 次 数 录入 数据 库 中 。 

















require “pstore" 


# 打开 数据 库 
db = PStore.new("/tmp/ncount") 
# 输 入 名 称 

STDOUT .print "input name:" 
STDOUT .flush 

name = gets.chomp 








db .transaction do 
# 名 称 不 存在 时 的 初始 化 
db[name] ||= 8 
# 名 称 的 计数 加 1 
db[name] += 1 





# 显 示 名 称 一 览 和 计数 
db.roots.each do |n| 
printf "name: %s count: %d\n", n, db[n] 
end 
end 




















图 13-9 ”使 用 PSstore 的 程序 示例 


13.1.9 ”变换 为 文本 的 YAML 


Marshal 的 变换 结果 是 二 进 制 文件 ， 内 容 不 容易 看 懂 。 所 以 有 些 场 合 ， 
即使 效率 低 一 点 ， 也 需要 能 够 以 更 容易 看 懂 的 形式 输出 。 


能 够 满足 这 种 要 求 的 是 YAML 。YAML 是 YAML Aint Markup 
Language (YAML 不 是 标记 语言 ) 的 缩 略 语 。 这 据说 是 开 友 Perl 
Inline.pm 的 Brian Ingerson 研究 出 的 数据 序列 化 格式 。 


YAML 使 用 文本 形式 ， 不 依赖 于 平台 的 体系 结构 ， 是 一 种 对 人 而 言 易 读 
易 编辑 的 序列 化 格式 。 它 提供 了 面 同 Pel、Ruby、Python 以 及 Java 等 
各 种 语言 的 API， 能 够 超越 语言 传递 数据 。 


YAML 有 以 下 几 个 特征 : 记述 简洁 ; 结果 容易 读 懂 ; 使 用 缩 进 的 层次 表 
现 ; 数据 表现 是 专用 的 ， 不 必 烦 恼 标 签 的 名 称 问题 。 


YAML 可 以 活用 在 Ruby on Rails 的 配置 文件 等 各 种 各 样 的 领域 。 
YAML 是 在 Perl 中 开始 开发 的 ， 但 正式 的 支持 ，Ruby 是 第 一 个 。Ruby 
中 YAML 的 基本 使 用 方法 如 图 13-10 所 示 。 

















require 'yaml' 
pack = obj.to_yaml] # 将 obj 变 成 YAML 后 的 字符 串 


# 从 YAML 字符 串 复 原 为 对 象 
unpack = YAML::1load(pack) 





图 13-10 YAML 的 使 用 方法 


加 载 yaml 库 以 后 ，0bject 类 里 就 追加 了 to_yaml 方法 。 调 用 这 个 方 


法 ， 可 以 得 到 任意 对 象 的 YAML 表现 。 图 13-5 的 Marshal 示 例 中 使 用 
的 同样 的 值 ， 我 们 给 它 变 成 YAML 看 看 吧 (参见 图 13-11) 。 


require ‘yaml' 
print [1,"2",{3=>4,5=>6}].to yaml 





# 输出 以 下 内 容 
# YAML 先头 行 








E 头 要 素 是 整数 1 


第 2 个 要 素 是 字符 串 2 
第 3 个 要 素 是 哈 希 。 哈 希 是 " 键 : 值 "的 排列 
在 数组 内 部 ， 所 以 有 缩 进 























图 13-11 YAML 数据 的 一 个 具体 示例 


YAML 用 于 配置 文件 时 ， 很 方便 。 而 且 ， 用 to_yaml 方法 可 以 将 任意 
对 象 变 换 为 YAML， 可 以 干 很 多 有 趣 的 事情 。 使 用 yaml 库 ， 可 以 像 
Marshal 一 样 简单 地 将 各 种 对 象 通过 dump 转 储 为 文本 格式 。 而 且 ， 其 
表现 比 Marshal 更 易 读 ， 与 Ruby 以 外 的 语言 也 可 以 进行 交换 。 


13.1.10 用 YAML 制 作 数据 库 


与 Marshal 一 样 可 以 将 对 象 与 字符 串 进 行 相互 变换 ， 也 就 意味 着 可 以 实 
现 使 用 YAML 的 面向 对 象 数 据 库 ， 即 类 似 于 PStore 的 东西 。 具 体例 
子 是 YAML: :Store 。YAML: :Store 与 PStore 互 换 性 非常 高 ， 只 要 把 
名 字 换 一 换 ， 面 向 PStore 的 程序 在 YAML: :Store 中 也 能 运行 。 


图 13-9 中 的 PStore 示例 程序 ， 用 YAML: :Store 重 写 以 后 ， 就 成 为 图 13- 
12 那 样 。 只 要 稍微 改写 一 下 ， 就 能 实现 完全 相同 的 动作 。 几 13-12 中 程 
序 的 变更 点 只 有 3 点 。 一 是 require 'pstore' 变 成 require 
'yaml/store' ; 二 是 访问 PStore 变 成 访问 YAML: :Store ; 还 有 一 个 
是 数据 文件 的 格式 变 了 ， 所 以 文件 名 也 变 了 。 




















require ‘yaml/store’ 


db = YAML::Store.new("/tmp/ycount") 
STDOUT .print "input name: " 
STDOUT.flush 

name = gets.chomp 


db.transaction do 
db[name] ||= 8 
db[name] += 1 
db.roots.each do |n| 
printf "name: %s count:%d\n",n,db[n] 
end 


end 








图 13-12 ”使 用 YAML: :Store 的 示例 程序 


像 这 样 只 要 很 少 的 变更 ，PStore 中 能 够 运行 的 程序 ， 在 YAML : :Store 
中 几乎 都 能 运行 。 事 实 上 ， 把 YAML: :Store 类 做 成 PStore 类 的 子 

类 ， 只 是 将 数据 的 整 列 部 分 更 改 为 使 用 to_yaml 方法 。 所 以 ， 提 供 
YAML : :Store 功能 的 yaml/store.rb 文件 ， 算 上 注释 和 空 行 ， 也 只 有 区 区 
30 行 。 


表面 上 的 运行 虽然 完全 相同 ，PStore 上 运行 的 程序 和 YAML: :Store 中 
运行 的 程序 还 是 有 以 下 几 点 区 别 。 


。 数据 格式 


PStore 使 用 Marshal，YAML: :Store 使 用 YAML。 如 果 有 可 能 
人 去 调查 或 操作 数据 文件 的 话 ， 还 是 会 发 现 YAML 更 易 懂 。 
。 数据 量 


像 上 面 的 示例 程序 这 种 小 的 数据 ， 几 乎 没什么 差别 ， 但 在 封 送 处 理 
大 规模 而 又 具有 复杂 结构 的 对 象 时 ，Marshal 比 YAML 紧凑 得 多 。 
可 以 说 ，Marshal 牺牲 了 易 读 性 而 实现 了 展 好 性 能 。 


。 执行 速度 
性 能 优良 不 光 是 容量 的 问题 。 使 用 Marshal 的 PStore 比 
YAML : :Store 速度 高 。 在 这 一 点 上 ， 也 是 数据 量 越 大 ， 两 者 的 差 
异 就 越 显 著 。 


由 于 PStore 与 YAML: :Store 的 性 质 有 这 些 差别 ， 所 以 有 必要 物 尽 其 
用 地 分 开 使 用 。 一 般 遵 照 以 下 原则 。 





























需要 直接 看 数据 内 容 时 用 YAML : :Store 。 
数据 的 委派 目标 不 限于 Ruby 时 用 YAML: :Store 。 


有 必要 对 用 户 定义 的 数据 进行 细微 对 应 时 用 Pstore 。 因 为 
PStore 可 以 用 marshal_dump 进行 定制 。 


数据 量 在 一 定 程 度 以 上 ， 两 种 都 不 太 合 适 的 时 候 ， 可 考虑 导入 专用 
数据 库 系 统 。 








13.2 ”对 象 的 保存 


现在 介绍 一 下 对 象 持 久 化 库 Madeleine。Madeleine 利用 直接 持久 化 1 对 
象 的 设计 模式 Object Prevalence。 


因为 对 象 有 参照 关系 ， 所 以 不 能 够 单纯 地 变换 为 文本 。 


一 








Madeleine (http: ne ) 是 Object Prevalence 在 Ruby 
中 的 实现 ， 应 称 为 是 前 面 介 绍 的 PStore? 的 发 展 形式 ， 由 Anders 
Bengtsson 开发 。 


2 PStore， 是 利用 Marshal 处 理 的 库 。Marshal 将 对 象 进行 文本 化 。 


PStore 只 是 对 象 单纯 地 由 Marshal 输出 而 来 ，Madeleine 则 与 应 用 程序 相 
协调 ， 实 现 了 高 可 靠 性 和 高 性 能 的 持久 化 。 


























13.2.1 高速 的 Object Prevalence 


所 谓 Prevalence， 是 一 种 实现 应 用 程序 的 持久 化 和 进程 间 共 享 数 据 的 设 
计 模 式 。 用 Java 的 Object Prevalence 库 制 作 的 

Prevayler (http:/www.prevayler.org/wiki) ， 与 经 由 JDBC3 利用 Oracle 
数据 库 的 模式 相 比 ， 速 度 不 可 思议 地 快 了 9000 倍 。 


3 JDBC 是 Java 与 数据 库 相 连接 的 API。 顺 便 说 一 下 ，JDBC 不 是 缩写 。 


高 性 能 的 秘密 ， 在 于 直接 访问 内 存 中 的 数据 。Object Prevalence 中 ， 将 
处 理 的 数据 保存 在 正在 执行 的 应 用 程序 的 内 存 中 ， 检 索 等 操作 不 通过 
SQL 而 是 直接 进行 。 这 样 就 节省 . 与 数据 库 服务 器 的 通信 成 本 处理 时 
间 ) ， 引 用 当然 就 会 变 得 很 高 速 


但 是 ， 只 有 是 同一 进程 ， 才 能 引用 内 存 中 的 数据 ， 进 程 一 结束 ， 数 据 马 
上 束 消 失 。 从 持久 化 的 角度 考虑 ， 有 必要 解决 这 一 问题 。 


Prevalence 用 日 志 记 录 (journaling) 4 和 快照 (snapshot) 来 解决 
一 问题 。Object Prevalence 中 ， 数 据 更 新 时 不 是 直接 更 新 对 象 ， 而 是 

创建 称 为 command 的 对 象 。 它 采用 的 是 一 种 非常 间接 的 方式 ， 在 用 

command 更 新 对 象 的 时 候 ， 内 存 中 的 对 象 更 新 的 同时 ， 所 有 的 更 新 内 容 
































也 会 写 到 称 为 日 志 (journal log) 的 外 部 文件 里 。 


4 所谓 日 志 记 录 ， 是 指 这 样 一 种 记录 方式 : 文件 写 入 外 部 存储 器 时 ， 在 记录 实际 数据 之 前 ， 移 
写 入 管理 信息 《元 数据 ) ， 以 及 元 数据 的 变更 记录 。 


这 样 长 此 下 去 的 话 ， 日 志 就 会 越 来 越 大 。 所 以 ， 我 们 就 定期 地 将 现在 数 






























































据 的 状态 写 入 到 称 为 快照 的 文件 中 去 。 有 了 快照 ， 老 的 日 志 就 不 需要 
了 ， 可 以 在 适当 的 时 机 删除 。 
这 里 重要 的 是 ， 有 了 最 新 的 快照 与 最 新 的 日 志 ， 就 可 以 完全 恢复 现在 对 


象 的 状态 。 程 序 局 动 时 ， 按 下 面 3 个 步骤 可 以 恢复 内 存 中 的 数据 。 即 使 
有 多 个 进程 只 要 写 入 日 志 中 的 信息 是 完整 的 ， 就 可 以 共享 对 象 的 状 





1. 如 果 不 存 在 快照 ， 就 初始 化 应 用 程序 数据 。 
2. 如 果 存 在 快照 ， 就 读 入 其 中 最 新 的 一 个 。 


2 人 也 将 其 读 入 ， 并 用 其 中 最 新 的 一 个 更 新 应 用 程序 


人 因为 留 有 快照 和 日 志 ， 也 还 可 能 复原 最 新 
和 数据。 


基本 原理 就 是 这 些 ， 但 Java 版 Prevayler 中 ， 另 有 别 的 Java 虚拟 机 里 保 
存 有 应 用 程序 数据 的 副本 〈Replica) ， 日 志 记录 和 快照 的 生成 就 交 给 了 
ne 这 样 ， 就 不 必 在 每 次 取得 快照 的 时 候 停止 程序 ， 从 而 实现 了 高 
性 能 。 


Ruby 版 的 Madeleine 中 ， 还 没有 使 用 Replica， 为 了 取得 快照 ， 程 序 全 
体 都 要 停止 。 所 以 ， 不 能 实现 Java 版 那 种 特别 高 的 性 能 。 因 为 我 们 还 
没有 在 这 种 性 能 问题 的 应 用 上 使 用 Madeleine， 所 以 还 不 太 清 楚 它 会 有 
多 大 的 影响 。 











13.2.2 ”Object Prevalence 的 问题 点 


Object Prevalence 通过 使 用 日 志 记 录 和 快照 实现 了 对 象 的 持久 化 和 进程 
间 共 享 ， 但 它 也 不 是 没有 缺点 。Object Prevalence 将 所 有 的 数据 都 保存 


到 内 存 中 ， 随 看 数据 量 的 增 大 ， 内 存 的 消耗 也 在 增 大 。 


关系 数据 库 中 ， 不 引用 的 数据 放 在 文件 中 ， 必 要 的 内 存量 就 不 用 那么 多 
了 了。 况且 ， 最 近 内 存 的 价格 在 下 降 ， 最 大 容量 也 在 增加 。 普 过 的 PC 配 
以 GB 级 的 内 存 ， 也 变 得 稀 松 平常 了 。 也 许 内 存 的 问题 变 得 越 来 越 不 重 
要 了 。 








另 一 个 问题 是 使 用 Object Prevalence 的 程序 ， 有 着 为 了 数据 更 新 而 具有 
的 特殊 结构 。 前 面 已 经 说 明 ， 更 新 持久 化 数据 的 时 候 ， 需 要 经 由 
command 对 象 。 


这 与 我 们 平 第 习惯 的 直接 更 新 对 象 的 实例 的 做 法 大 不 相同 ， 需 要 适应 一 
下 。 后 面 会 讲 到 对 开 。 





13.2.3 ”使 用 Madeleine 


Madeleine 作为 设计 模式 Object Prevalence 在 Ruby 中 的 实现 ， 其 使 用 方 
法 示 于 图 13-13 中 。 这 是 一 个 简单 的 计数 器 程序 。 从 键盘 输入 字符 串 
inc ， 计 数 器 的 值 就 增加 ， 输 入 字符 串 show ， 计 数 器 的 值 就 显示 出 
来 。 





require 'madeleine'" 


class CountData 
attr accessor :count 
def initialize 
@count = 6 
end 
end 


class CountInc 
def execute(data) 
data.count += 1 
end 
end 


class CountShow 
def execute(data) 
data.count 
end 
end 


# (A) 初始 化 Madeleine handle 
m = SnapshotMadeleine.new("/tmp/data"){ 
CountData. new 


} 


Thread.start { 
loop { 
sleep 126  # 每 128 秒 取 一 次 snapshot 
m.take_snapshot 
} 
} 


loop do 
print "inc or show? " 
STDOUT.flush 
line = gets 
break if line == nil 
case line 
when /^inc/ 
printf "count -> %d\n",m.execute command(CountInc.new) 
when /^show/ 
printf "count:%d\n",m.execute query(CountShow.new) 
end 
end 























图 13-13 ”Madeleine 的 使 用 示例 


为 了 利用 Madeleine， 首 先 ， 像 图 13-13 ( A ) 那样 对 系 统 进行 初始 
化 。 snapshotMadeleine.new 的 参数 里 ， 指 定 快照 和 日 志 的 存放 路 


大 
径 。 


可 以 省 略 的 第 2 个 参数 指定 将 对 象 写 入 快照 时 所 用 的 模块 。 缺 省 值 是 内 
置 的 Marshal 模块 。 第 2 个 参数 和 若 指定 了 YAML2” ， 可 以 保存 为 YAML 
形式 


5 YAML 是 为 了 让 人 读 起 来 更 易 懂 而 进行 Marshal 化 的 模块 。 


使 用 zlib 可 以 将 持久 化 数据 压缩 。 首 先 ， 开 头 部 分 变 为 以 下 这 样 。 























require 'madeleine' 
require 'madeleine/zmarshal' 


| | 


在 此 基础 上 ，SnapshotMadeleine.new 的 第 2 个 参数 指定 
Madeleine: :ZMarshal.new(Marshal) 。 也 可 以 使 用 zlib 压缩 的 
YAML 文件 ， 只 要 将 参数 Marshal 变 为 YAML 就 行 了 。 


SnapshotMadeleine.new 在 快照 存在 的 情况 下 ， 可 以 从 快照 复原 应 用 
程序 数据 。 但 是 ， 程 序 在 第 一 次 启动 时 ， 因 为 不 存在 快照 ， 就 执行 给 定 
的 块 ， 把 结果 作为 应 用 程序 数据 。 图 13-13 的 程序 中 ， 生 成 一 个 
CountData 类 的 对 象 。 如 果 存 在 快照 ， 就 不 执行 块 ， 而 使 用 从 快照 和 日 
志 复 原 的 CountData 对 象 。 不 管 是 哪 种 情 

况 ，SnapshotMadeleine.new 的 返回 值 都 存放 在 Madeleine 处 理 程序 
中 。 存 放 在 Madeleine 中 的 数据 更 新 时 ， 一 定 经 由 处 理 程 序 来 创建 
command ， 然 后 执行 处 理 。 具体 访问 方法 如 下 。 


m.execute command(command) 


command 被 称 为 command 对 象 ， 是 执行 数据 访问 的 
类 。execute_command 方法 被 调用 后 ， 按 以 下 步骤 处 理 : 加 锁 ， 写 日 
志 以 及 调用 command .execute 。 


command 不 管 是 哪个 类 的 对 象 都 无 关 紧 要 ， 但 需要 满足 以 下 4 个 条 件 。 
有 execute 方法 


必须 能 够 记述 command .execute(data) 。data 是 应 用 程序 数据 ， 由 
eXxecute_command 传递 而 来 。 


没有 副作用 


command 对 象 不 能 获取 由 execute 的 参数 传递 过 来 的 数据 以 外 的 信 

上 县。 全 局 变量 、 随 机 数 、 时 刻 的 引用 以 及 文件 的 输入 输出 也 是 禁止 的 。 
这 是 在 按 顺序 调用 保存 在 日 志 记 录 里 的 command 对 象 的 execute 方法 
时 ， 再 现 数据 的 Object Prevalence 所 必需 满足 的 条 件 。 


如 果 有 引用 全 局 变量 这 样 的 外 部 信息 的 command ， 融 不 能 从 日 志 中 复 
原 数据 。 

















可 以 持久 化 


command 对 象 由 Marshal (或 者 明确 指定 的 持久 化 模块 ) 写 入 日 志 。 所 
以 ，command 对 象 本 喘 必须 能 够 持久 化 。 


持久 化 的 command 对 象 写 入 日 志 记录 ， 上 所 以 希望 它 本 身 不 太 大 《〈 尽 可 
能 不 含 对 其 他 对 象 的 引用 ) 。 


command 不 含 对 data 〈 应 用 程序 数据 ) 的 引用 


command 被 变 成 字符 串 记录 到 日 志 里 ， 如 果 含 有 对 应 用 程序 数据 的 引 
用 ,日 志文 件 束 会 膨胀 ， 就 根本 谈 不 上 性 能 了 。 前 面 提 到 过 ，command 
不 应 含有 太 大 的 数据 。 


即使 执行 了 command ， 只 要 数据 没有 变更 ， 还 可 以 利用 
execute_query 方法 。execute_query 方法 执行 command 时 ， 不 往日 
志 里 写 记 录 。 因 为 日 志 里 没 留 记录 ， 执 行 的 command 不 能 更 新 应 用 程 
序数 据 。 万 一 更 新 了 数据 ， 会 成 为 很 严重 的 问题 。 


再 回 到 图 13-13。 实 际 执行 一 下 图 13-13 中 的 程序 吧 (参见 图 13-14) 。 


$ ./ruby /tmp/m.rb 
show?inc 
->1 
show?show 
让 
show? inc 
-> 2 
show? ^D 

















$ ./ruby /tmp/m.rb 


inc or show? show 
count : 2 

inc or show? inc 
count -> 3 

inc or show? inc 
count -> 4 

inc or show?^D 











图 13-14 图 13-13 中 程序 的 执 行 结果 








中 途 按 下 Ctrl+ D 两 个 键 ， 让 程序 结束 。 但 是 再 次 执行 时 ， 能 够 记 住 以 
前 的 状态 〈 这 里 是 2) 。 





13.2.4 访问 时 刻 信息 


对 command 所 作 的 限制 中 ， 禁 止 全 局 变量 和 文件 的 输入 输出 ， 就 当做 
是 没 办 法 吧 。 随 机 数 作为 从 外 部 传 给 command 信息 的 一 部 分 ， 也 还 能 





但 是 ， 不 能 够 访问 时 刻 信息 ， 对 于 编程 则 是 一 个 相当 大 的 限制 。 所 
以 ， 我 们 准备 了 Madeleine: :Clock: :ClockedSystem 模块 。 


为 了 使 用 这 一 模块 ， 程 序 的 开头 写成 这 样 : 


require 'madeleine/clock' 


在 此 之 后 ， 应 用 程序 数据 的 类 里 ， 将 这 个 模块 包含 进去 ，clock 方法 就 
可 以 使 用 了 。 比 如 ， 现 在 时 刻 可 以 用 clock.time 取得 。 


实际 上 ， 在 取得 时 刻 的 时 间 上 把， 时 刻 信息 束 写 入 了 日 志文 件 。 但是， 用 
户 《 程 序 员 ) 没 必要 知道 这 一 点 。 


Madeleine: :Clock: :ClockedSystem 的 时 刻 记 录 程 序 用 法 示 于 图 13- 
15 中 ， 每 按 下 一 次 回 车 键 ， 这 个 程序 就 记录 一 次 时 刻 。 











require “madeleine' 
require 'madeleine/clock' 


class TimeRecord 
include Madeleine::Clock::ClockedSystem 
attr accessor :last time 
def initialize 
@last time = nil 
end 
def record 
@last time = clock.time 
end 
end 


class RecordCommand 


def execute(data) 
data.record 
end 
end 


m = SnapshotMadeleine.new("/tmp/record"){ 
TimeRecord.new 


} 
# (A) 内 部 时 钟 的 初始 化 


Madeleine::Clock::TimeActor.1launch(m) 
loop do 
last = m.system.last time 
puts last if last 
print "press enter to record time " 
STDOUT.flush 
line = gets 


break if line == nil 
m.execute command(RecordCommand.new) 
end 























图 13-15 使 用 Madeleine: :Clock: :ClockedSystem 的 时 钟 程序 














当然 ， 即 使 中 断 进 程 ， 只 要 留 下 日 志 记 录 和 快照 数据 ， 下 次 局 动 时 还 能 
记得 最 后 记录 的 时 刻 。 


利用 madeleine/clock 库 时 应 当 注 意 的 是 ， 像 图 13-15 〈A) 所 示 那 
样 ， 别 忘 了 调用 Madeleine: :Clock: :TimeActor.1launch() 方法 。 
调用 时 ， 作 为 参数 ， 传 递 Madeleine 对 象 的 处 理 权 。 


又 对 于 内 部 时 钟 的 管理 也 是 必要 的 。 如 休息 了 调用 这 ~ 步 ， 时 钟 
7 lg 初始化， 会 给 出 一 个 怪异 的 时 间 (具体 讲 ， 总 是 1970 年 1 月 1 
日 上 午 9 时 ) 。 











13.2.5 ”让 Madeleine 更 容易 使 用 


正如 到 目前 为 止 所 见 到 的 那样 ，Madeleine 既 保 持 简 洛 性 与 高 性 能 ， 又 
能 让 对 象 持久 化 ， 但 它 也 有 和 缺点 。 


要 次 最 大 的 缺点 ， 还 是 在 每 次 更 新 应 用 程序 数据 时 ， 都 必须 要 生成 





command 对 象 ， 调 用 execute_command 。 


通常 在 Ruby 中 ， 对 象 的 操作 单纯 是 通过 调用 方法 来 实现 的 。 相 比 之 
下 ，Madeleine 的 这 一 缺点 会 让 人 很 不 耐烦 。 


这 里 将 要 介绍 的 是 附属 于 Madeleine 的 madeleine/automatic 库 。 用 
这 个 库 ， 应 用 程序 数据 的 更 新 可 以 通过 普通 的 方法 调用 来 实现 。 


图 13-16 是 图 13-13 中 的 程序 经 改 民 而 来 的 。 使 用 
madeleine/automatic ， 对 应 用 程序 数据 的 操作 变 为 普通 的 方法 调 
用 。execute command 的 调用 没有 了 ， 可 以 直接 调用 用 Madeleine 
对 象 的 system 方法 取得 的 应 用 程序 数据 (CountData 类 的 对 象 ) 的 方 
法 。 数 据 操作 部 分 变 得 更 直接 更 易 懂 。 














require 'madeleine' 
require 'madeleine/automatic'" 


class CountData 
include Madeleine::Automatic::Interceptor 
def initialize 
@count = 6 
end 
def show 
@count 
end 
automatic read only :show 
def inc 
@count += 1 
end 
end 


m = AutomaticSnapshotMadeleine.new("/tmp/data" ){ 
CountData.new 


} 


Thread.start { 
loop { 
sleep 126 # 每 126 秒 取 一 次 快照 
m.take_snapshot 
} 
} 


loop do 
print "inc or show?" 


STDOUT .flush 
line = gets 
break if line == nil 
case line 
when /^inc/ 
printf "count -> %d\n", m.system.inc 
when /^show/ 
printf "count: %d\n", m.system.show 
end 
end 





图 13-16 ”用 madeleine/automatic 库 改 良 图 13-13 后 的 程序 


另 一 方面 ， 表 示 应 用 程序 数据 的 CountData 类 ， 将 Madeleine:: 
Automatic: :Inter-ceptor 模块 包含 进来 了 。 这 一 模块 实现 了 “ 魔 
法 ”， 将 方法 调用 在 内 部 置换 为 创建 command 。 


我 们 仅仅 为 了 取得 现在 状态 的 show 方法 ， 而 不 更 新 数据 ， 所 以 没有 必 
要 在 日 志 里 留 下 记录 。 这 里 追加 了 automatic read_only 设 定 ， 可 以 
削减 多 余 的 日 志 。 使 用 madeleine/automatic ， 可 以 让 Madeleine 
的 带 持久 化 功能 的 应 用 程序 开发 变 得 更 人 简单。 





13.2.6 ”Madeleine 的 实用 例 Instiki 





虽然 Madeleine 具有 各 种 各 样 的 优点 ， 却 没 怎么 得 到 广泛 应 用 。 除 了 知 
道 的 人 不 多 之 外 ， 还 因为 数据 全 保存 在 内 存 里 ， 就 必须 十 分 留意 数据 的 
大 小 ， 这 也 成 为 妨碍 它 广 泛 使 用 的 因素 。 


实际 上 ， 利 用 Madeleine 的 应 用 程序 的 代表 是 wiki 的 实现 之 一 Instiki。 
Instiki 是 因 开 发 Ruby on Rails 而 出 名 的 David Heinemeier Hansson 在 发 布 
Ruby on Rails 之 前 所 开发 的 程序 。 


Instiki 在 利用 Madeleine 方面 也 是 一 个 很 有 意义 的 应 用 程序 。 男 外 ， 它 
也 反映 了 MVC 构成 的 目录 结构 ， 安 装 非常 简单 ， 体 现 了 后 来 的 Ruby 
on Rails 的 一 些 特征 ， 是 个 很 有 趣 的 软件 。 


但 是 ，Madeleine 有 一 个 很 大 的 缺点 ， 那 就 是 没有 考虑 多 个 进程 同时 更 
新 数据 的 情况 。 











比如 并 行 执 行 图 13-13 中 介绍 的 计数 器 程序 ， 计 数 就 会 出 现 错 位 〈 人 参见 
图 13-17) 。 在 图 13-17 中 ， 终 端 A 中 图 13-13 的 程序 正在 执行 ， 又 从 
终端 B 启动 这 一 程序 。 看 起 来 终端 A 的 显示 内 容 不 受 终端 B 的 影响 ， 
但 结束 终端 A 的 程序 后 再 度 启动 ， 记 录 的 数值 束 会 从 2 增加 到 4。 
此 ， 有 必要 采取 对 策 ， 让 使 用 Madeleine 的 程序 服务 器 化 。 


# 终端 A 

$ ./ruby /tmp/m.rb 
inc or show? inc 
count -> 1 

inc or show? show 
count: 1 


# 终端 B 

$ ./ruby /tmp/m.rb 
inc or show? inc 
count -> 2 

inc or show? inc 
count -> 3 

inc or show? ^D 


# 终端 A〈 续 ) 

inc or show? inc 
count -> 2 

inc or show? ^D 


$ ./ruby /tmp/m.rb 
inc or show? show 
count: 4 














图 13-17 计数 器 程序 同时 执行 的 示例 


13.3 ”关于 XML 的 考察 


以 前 ， 我 曾经 写 过 对 XML 持 批判 态度 的 博客 。 所 以 ， 很 多 时 候 我 被 视 
为 XML 反对 派 。 的 确 ， 很 多 人 不 管 合适 不 合适 ， 到 处 都 用 XML， 这 让 
0 但 这 顶 多 是 个 使 用 场合 的 问题 ， 我 无 意 人 否定 XML 技术 本 


这 一 市 考察 一 下 XML 的 性 质 ， 分 析 其 长 处 短处 ， 知 道 在 哪些 地 方 该 
用 ， 哪 些 地 方 不 该 用 。 





13.3.1 XML 的 祖先 是 SGML 


首先 回顾 一 下 XML 的 技术 史 。 XML 的 祖先 是 SGML ( Standard 
Generalized Markup Language) 。SGML 是 将 文档 电子 化 的 一 种 格式 。 
它 由 3 部 分 组 成 : 表示 数据 本 里 的 mstance， 表 示 数 据 结构 格式 的 
DTD (Document Type Definition) ， 以 及 SGML 声明 。 


SGML 最 初 由 美国 IBM 公司 的 Charles Goldfarb 所 开发 ，1986 年 通过 国 
际 标 准 化 组 织 (ISO) 的 认证 ， 其 规范 文件 为 I SO8879。 在 那 之 后 ， 它 
被 广泛 应 用 于 产品 手册 等 各 种 文档 的 电子 化 上 。 


WWW 诞生 以 后 ， 网 页 的 表现 形式 采用 了 SGML。HTML (Hyper Text 
Markup Language) 是 SGML 适用 于 特定 的 DTD 的 产物 ， 也 可 以 说 是 
SGML 的 实例 ， 或 者 说 是 SGML 的 子 集 。 


由 于 SGML 太 复 杂 ， 处 理 成 本 太 高 ， 为 了 表现 网 页 ， 我 们 将 SGML 特 
化 为 HIML， 随 之 而 诞生 的 是 XML (Extensible Markup Language) 。 


XML 不 像 HTML 那样 是 为 了 特定 目的 的 标记 语言 ， 它 一 开始 就 是 为 了 
通用 目的 而 设计 的 。 另 外 ， 为 了 让 XML 在 没有 DTD 来 定义 语法 或 提 
供 schema 信息 的 情况 下 ， 也 能 够 解析 ， 人 们 对 其 语法 进行 了 简化 。 
XML 的 规范 于 1995 年 左右 在 W3C 协会 (World Wide Web 
Consortium ) 上 开始 讨论 ，1998 年 发 布 XML 1.0。2004 年 公布 的 XML 
1.1 版 是 最 新 的 规范 。 


13.3.2 ”XML 是 树 结 构 的 数据 表现 








现在 再 来 看 看 XML 的 概要 吧 。XML 数据 的 形式 如 图 13-18 所 示 。 这 是 
假想 地 址 信息 的 XML 数据 。XML 基 本 上 是 纯 文 本 ， 以 类 似 于 HTML 的 
人 另外 ， 以 标签 从 套 的 方式 实现 树 


<addressbook> 
<address> 

<name initial = "M"> 松 本 行 弘 </namey> 
<Zzipcode>699-6261</zipcodey> 
<address> 松 江 市 玉 汤 町 玉 造 </address> 
<tel>0852-62-XXXX</tel> 

</address> 

<address> 
<name initial = "N"> 网 络 应 用 通信 研究 所 

</name> 
<zipcode>696-86826</zipcode> 
<address> 松 江 市 学 园 南 2-12-5</address> 
<tel>0852-28-XXXX</tel> 

</address> 

<address> 
<name initial = "R"> 乐 天 </namey> 
<Zipcode>146-6662</zipcodey> 
<address> 品 川 区 东 品 川 4-12-3</address> 
<tel>03-6387-XXXX</tel> 

</address> 

</addressbook> 









































图 13-18 XML 数据 的 示例 


如 上 所 述 ，XML 是 继承 了 SGML 的 通用 标记 语言 。 它 与 SGML 最 大 的 区 
别 是 其 基本 语法 固定 ， 不 依赖 于 DTD 那 样 的 外 部 信息 也 能 解析 。 XML 
中 规定 ， 像 <data> 对 应 </data> 那样 ， 标 签 必须 用 同名 的 结束 标签 3 

没有 结束 标签 的 ( 空 要 素 标签 ) ， 像 <br/> 那样 ， 末 尾 必须 带 斜 
To 


同样 是 继承 自 SGML，HTML 束 没 有 这 种 规则 ， 比 如 <hr> 束 没 有 结束 
标签 。 因 为 不 知道 标签 在 哪里 结束 ， 如 果 没 有 各 标签 的 概要 信息 ， 就 不 
能 解析 。 


像 这 样 即使 没有 标签 的 概要 信息 也 能 解析 的 语法 称 为 民 构 的 (well- 
formed) ， 这 是 XML 的 一 大 特征 。 











13.3.3 ”优点 在 于 纯 文 本 


XML 有 很 多 优点 ， 其 中 最 大 的 优点 在 于 XML 基本 上 是 纯 文本 的 。 想 一 
想 所 表示 的 数据 ， 比 如 说 用 *.doc 这 种 Word 格式 的 数据 ， 随 着 时 光 流 
逝 ， 当 处 理 这 种 数据 的 软件 再 也 找 不 到 的 时 候 ， 信 息 就 丢失 了 。XML 
从 SGML 继承 的 好 处 就 是 ， 数 据 全 部 以 纯 文 本 表示 ， 表 示 结 构 的 信息 
附加 在 标签 里 。 


第 2 个 优点 是 不 易 发 生 关 于 字符 编码 的 问题 。Tim Bray 是 开发 XML 的 
初期 成 员 之 一 ， 有 时 被 称 为 “XML 之 父 ”。 我 兽 经 有 过 一 次 与 他 亲自 对 
话 的 机 会 ， 当 被 问 到 * 您 认为 XML 的 最 大 优点 是 什么 ? ”的 时 候 ， 他 马 
上 回答 “没有 字符 编码 的 问题 。” 


XML 规定 ， 在 没有 明确 指定 的 情况 下 ， 字 符 编 码 均 使 用 Unicode。 在 没 
有 这 一 规定 ， 编 码 信息 不 一 定 存 在 的 环境 中 ， 比 如 初期 的 HTML 中 ， 
文本 数据 的 编码 方式 只 能 靠 推测， 万 一 推出 错 了 ， 就 会 带 来 严重 的 乱码 
问题 。 现 在 ，HTML 中 指定 编码 方式 也 已经 成 为 理所当然 的 事情 ， 遇 到 
乱码 的 机 会 变 少 了 。XML 把 这 种 看 似 理 所 当然 ， 而 实际 并 非 理 所 当然 
的 东西 ， 清 清楚 楚 进 行 了 定义 ， 是 很 了 不 起 的 。 


第 3 个 优点 是 ， 得 荔 于 民 构 的 性 质 ， 它 在 没有 数据 结构 的 情况 下 也 能 解 
析 XML 数据 。 这 样 就 可 以 不 考虑 目的 ， 而 用 共同 的 工具 来 处 理 XML 
数据 。 当 然 ， 根 据 需 要 ， 使 用 数据 结构 信息 《 称 为 schema) ， 也 可 以 
验证 XML 数据 是 否 具 有 合乎 目的 的 结构 。 


第 4 个 优点 在 于 ，XML 与 其 解析 工具 不 依赖 于 特定 的 语言 ， 比 如 Java 
生成 的 XML 数据 在 Ruby 中 解析 也 很 简单 。 解 析 XML 的 API， 像 
DOM 和 SAX (Simple API for XML ) ， 都 超越 语言 提供 了 几乎 共通 的 
内 容 ， 所 以 不 同 的 语言 也 可 以 进行 同样 的 操作 。 因 为 这 个 性 质 ， 不 同 平 
台 之 间 的 信息 交换 性 很 好 ， 也 就 是 说 ，XML 的 互 用 性 很 高 。 


因为 XML 不 依赖 于 语言 ， 且 是 纯 文本 的 ， 所 以 说 它 对 于 平台 的 独立 性 
非常 高 。 这 意味 看 即使 处 理 数 据 的 软件 更 新 了， 数据 仍 可 以 继续 使 用 。 


最 后 一 个 优点 是 ， 从 SGML 继承 而 来 的 纯 文本 + 标签 的 语法 ， 能 让 人 马 
上 明白 数据 具有 什么 样 的 结构 ， 也 即 对 人 而 言 是 一 种 容易 理解 的 结构 。 
还 有 ， 开 始 和 结束 标签 具有 相同 的 名 字 ， 如 果 因 和 弄 错 而 失去 了 正确 的 髓 
套 结 构 ， 就 可 以 马上 检查 出 来 ， 这 样 能 迅速 发 现 和 修正 编辑 的 错误 。 

















总 结 一 下 ，XML 作为 各 种 数据 交换 格式 的 框架 ， 上 有 具有 优 民 的 性 质 。 换 
言 之 ， 作 为 格式 的 格式 ， 也 就 是 元 格式 ， 它 是 很 优秀 的 。 


XML 是 不 是 最 好 的 元 格式 ， 还 有 异议 ， 也 有 人 认为 Lisp 采用 的 S 式 更 
优秀 。 但 是 ，S 式 作 为 信息 交换 的 格式 ， 没 有 被 规范 化 ， 这 无 疑 是 它 相 
对 于 XML 的 一 个 劣势 。 


13.3.4 缺点 在 于 元 长 
有 这 么 多 优点 的 XML， 也 并 非 完 美 无 瑕 ， 批 判 它 的 人 也 不 少 。 


XML 最 为 人 所 诉 病 的 是 效率 低下 。XML 是 以 纯 文 本 形式 表现 的 ， 标 签 
信息 反复 出 现 ， 显 得 很 兄长 。 与 表示 相同 信息 的 二 进 制 数据 相 比 ， 
XML 数据 的 容量 要 大 得 多 。 而 且 ，XML 与 其 他 文本 表现 方式 相 比 ( 比 
如 YAML、JSON 等 ， 后 面 会 讲 到 ) ， 也 要 显得 见长 。 


效率 低下 不 光 是 体现 在 数据 大 小 上 ， 解 析 XML 时 效率 也 不 怎么 高 。 与 
二 进 制 文件 相 比 ，XML 文件 的 解析 因为 含有 大 量 的 字符 串 处 理 ， 而 容 
易 变 得 很 慢 。 为 了 解决 这 一 问题 ， 有 人 提议 过 用 XML 的 二 进 制 来 表 
现 ， 但 那样 的 话 又 会 失去 它 的 一 个 优点 ， 即 一 看 就 懂 的 易 读 性 。 万 一 有 
和 
难 。 


另外 ，XML 虽然 写 称 自己 能 够 表现 数据 结构 ， 对 人 而 言 易 读 ， 但 是 实 
际 上 现在 已 经 认识 到 ， 复 杂 到 一 定 程 度 以 上 的 XML 数据 ， 特 别 是 有 一 
定 结构 的 数据 ， 笔 人 去 读 是 很 不 现实 的 。 一 般 不 是 笔 人 去 读 写 XML， 
而 是 用 茶 种 工具 去 操作 它 。 


说 起 元 长 的 标签 所 带 来 的 容易 检 出 错误 这 一 好 处 ， 实 际 上 ， 人 们 在 编辑 
XML 时 一 般 都 使 用 工具 来 操作 ， 所 谓 易 读 、 易 编辑 这 些 优 点 ， 也 只 是 
在 出 了 什么 问题 ， 需 要 紧急 处 理 ， 靠 人 为 操作 时 才能 体现 出 来 。 


说 得 更 深 一 点 ， 作 为 文本 的 标记 语言 而 诞生 的 XML， 用 其 表现 有 一 定 
结构 的 数据 到 底 好 不 好 还 是 一 个 疑问 。 如 果 只 是 用 于 表现 构造 数据 ， 比 
XML 更 有 效率 的 格式 还 有 好 几 种 呢 。 而 且 ，XML 原则 上 只 能 表现 树 结 
构 的 数据 ， 这 也 是 很 让 人 遗憾 的 。 


忆 结 一 下 ，XML 作为 出 于 通用 目的 的 数据 格式 ， 效 率 很 低 。 很 多 所 谓 



























































的 优点 ， 如 果 场 合 不 对 ， 也 没 多 大 意义 。 有 一 个 说 法 叫 适 材 适 所 ， 
XML 也 有 必要 分 情况 适当 使 用 。 


13.3.5 “不 适合 重视 效率 的 处 理 

知道 了 这 些 优点 和 缺点 ， 也 就 明确 了 XML 的 “用 武之 地 。 首 先 ，XML 
不 适合 的 ， 还 是 重视 效率 的 地 方 。XML 的 宛 长 性 和 解析 效率 的 低下 
性 ， 对 于 重视 通信 量 和 速度 的 情况 都 不 合适 。 这 些 情况 下 ， 使 用 专用 的 
协议 或 者 效率 更 高 的 格式 ， 应 该 更 好 。 

另外 ， 对 于 像 配置 文件 那样 的 靠 人 直接 编辑 的 数据 ， 也 不 推荐 使 用 
XML 。 配 置 文件 里 ， 需 要 用 到 XML 的 树 结构 数据 的 地 方 很 少 ， 随 着 要 
素数 的 增加 ， 它 很 快 就 变 得 很 难 读 ， 不 适合 用 XML。 如 果 用 于 这 种 目 
的 ， 后 面 将 要 讲 到 的 YAML 和 JSON 那 种 更 简单 的 格式 才 合适 。 

以 上 光 说 了 缺点 ， 那 么 XML 在 哪些 场合 才 真 正 合适 呢 ? 

看 看 上 述 那些 缺点 的 反面 : 

人 一 般 不 直接 接触 ; 

复杂 性 不 成 为 问题 ; 

效率 不 成 为 问题 ; 

。 跨 平 台 。 

以 上 这 些 场合 是 适合 使 用 XML 的 场所 。 复 杂 性 不 应 成 为 问题 ， 是 指 将 
XML 作为 本 来 的 标记 语言 使 用 的 时 候 ， 标 签 的 密度 不 大 ， 所 以 不 易 成 
为 “ 读 不 懂 的 XML”。 

对 于 作为 数据 进行 处 理 的 情况 ， 如 果 是 读 不 懂 的 XML， 人 有 眼 一 看 就 能 
知道 读 不 懂 。 即 使 这 样 也 要 用 的 时 候 ， 是 不 是 对 于 跨越 系统 处 理 数 据 以 
及 数据 的 跨 平 台 性 有 要 求 哇 ?比如 说 ， 多 个 系统 共享 数据 (而 且 不 是 频 
繁 访问 ) 的 时 候 。 


13.3.6 ”适合 于 信息 交换 的 格式 














想 想 这 些 ， 会 让 人 和 觉得 XML 其 实 也 没有 所 说 的 那么 万 能 。 即 使 这 样 ， 
仍然 有 几 种 适合 使 用 XML 的 情况 ， 其 中 之 一 束 是 以 XML 为 基础 的 数 
据 格 式 。 利 用 XML 的 元 格式 性 质 ， 定 义 了 多 个 以 XML 为 基础 的 格 

式 。 基 于 这 种 信息 交换 用 的 格式 ， 参 与 者 之 间 的 交换 协议 是 最 重要 的 。 


以 下 列 出 了 几 个 以 XML 为 基础 的 格式 的 例子 。 

。 RSS。Web 网 站 更 新 信息 ; 

。 Atom。RSS 的 代替 ; 

e。ebXML 。 电 子 商 务 数据 交换 ; 

。 SVG。 问 量 一 图 像 表示 ; 

。 SMIL。 多 媒体 及 内 容 控 制 。 

以 上 这 些 都 具有 XML 的 性 质 ， 可 以 用 XML 处 理工 具 简 单 地 解析 。 制 
作 数 据 格式 时 ， 最 麻烦 的 就 是 制作 处 理 这 种 格式 的 软件 ， 所 以 ，XML 

与 XML 处 理 库 〈 及 工具 ) 的 存在 是 很 可 贵 的 。 

另外 一 点 是 XML 数据 库 这 样 的 构造 。XML 数据 库 中 ， 问 题 不 在 于 数据 
是 不 是 实际 上 以 纯 文 本 的 XML 来 表现 ， 而 在 于 XML 能 够 表现 的 树 结 
构 能 够 自由 自在 地 操作 。 也 就 是 说 ， 不 是 带 标 签 的 纯 文 本 ， 而 是 由 带 属 
性 、 带 内 容 的 节点 所 构成 的 树 结构 本 身 才 是 重要 的 。 这 样 ， 关 系数 据 库 
和 

Bs 

XML 数据 库 中 ， 数 据 无 非 是 保存 在 数据 库 中 《估计 是 用 二 进 制 表 


示 ) ， 表 现 的 元 长 性 和 效率 的 低下 性 不 成 为 问题 。 倒 是 后 面 要 讲 到 的 
DOM 那样 的 API 中 重视 树 结 构 的 操作 。 




















13.3.7 XML 的 解析 


XML 的 解析 方法 有 好 几 种 ， 这 里 介绍 DOM、SAX 和 XPath，Ruby 中 
提供 这 些 功能 的 库 REXML 也 一 并 予以 介绍 。 


DOM 





DOM 是 文档 对 象 模型 的 缩写 ， 是 对 读 取 了 XML 数据 的 树 结构 进行 操 
作 的 库 。DOM 提供 的 操作 由 W3C 作为 标准 进行 了 定义 。 

SAX 

SAX 是 Simple API for XML 的 缩写 。 与 将 数据 全 部 读 入 内 存 的 DOM 不 
同 ， 通 常 ，SAX 以 数据 流 的 形式 读 入 XML， 以 事件 驱动 进行 处 理 。 
SAX 中 ， 没 必要 将 数据 全 部 读 入 ， 这 样 往往 处 理 效率 更 高 ， 所 以 ， 适 
合 于 将 XML 变换 为 其 他 形式 的 处 理 ， 反 过 来 说 ， 不 适合 于 对 树 结构 进 
行 随机 访问 等 用 途 。 


XPath 





XPath 是 用 于 指定 XML 树 的 一 部 分 的 书写 格式 。 使 用 XPath， 可 以 用 
方 点 名 《标签 名 ) 、 属 性 名 或 属性 值 等 来 选择 特定 的 市 皮 ( 群 )。 





13.3.8 XML 处 理 库 REXMIEL 


REXML 是 Ruby 标准 附属 的 XML 处 理 库 。REXML 是 具有 DOM、 
SAX、SAX2 以 及 XML Pull Parser 等 多 种 功能 的 库 ， 由 住 在 德国 的 
Sean Russel 先生 维护 。 


REXML 全 部 用 Ruby 实现 ， 所 以 速度 表现 上 不 怎么 优秀 。 在 特别 重视 
效率 的 情况 下 ， 也 许 有 必要 用 libxml 等 别 的 XML 处 理 库 。 


现在 来 看 一 看 实际 使 用 REXML 的 程序 吧 。 首 先 从 使 用 DOM 的 程序 开 
始 。 图 13-19 的 程序 从 图 13-18 所 示 的 地 址 信息 的 XML 数据 中 ， 提 取 
出 姓名 和 住所 并 显示 出 来 。 为 了 使 用 DOM 读 取 XML 数据 ， 需 要 将 
rexml/document 库 加 载 进 来 ， 接 着 生成 供 DOM 操作 的 

REXML: :Document 对 象 ， 然 后 可 以 自由 访问 树 结构 。elements 方法 返 
回 该 节点 下 配置 的 节点 。 通 过 明确 指定 名 称 ， 也 可 以 只 选择 特定 的 节 
点 。 图 13-19 中 程序 的 执行 结果 示 于 图 13-20。 





require “rexml/document 


doc = REXML: :Document.new(File.open("address.xml")) 


doc.elements.each("/addressbook/address") do |el 
print e.elements["name"].text," - ”， 
e.elements["address"].text,"\n" 

















图 13-19 ”使 用 DOM 的 程序 








松本 行 弘 - 松江 市 玉 汤 町 玉 造 
网 络 应 用 研究 所 - 松江 市 学 园 南 2-12-5 
乐天 - 品川 区 东 上 品川 4-12-3 



































图 13-20 DOM 示例 程序 的 执行 结果 


DOM 也 可 用 于 构建 树 结构 (参见 图 13-21) 。 可 以 知道 ， 这 个 程序 执行 


以 后 ， 会 新 增 一 个 Ruby association 节点 。 





require “rexml/document 
doc = REXML: :Document.new(File.read("address.xml")) 


address = doc.root.add element("address") 

e = address.add element("name",{'initial' => 'R'}) 
e.text = "Ruby association" 

e = address.add element("zipcode") 

e.text = "690-606003" 

e = address.add element("address") 

e.text = "松江 市 朝日 町 478-18" 





doc.root.elements.each("/addressbook/address") do |e| 
puts e.elements["name"] .text 
end 








图 13-21 由 DOM 生成 的 树 结 构 


DOM 可 以 从 XML 数据 实现 树 结 构 ， 并 进行 操作 。 另 一 方面 ，SAX 一 
边 读 取 XML 数据 ， 一 边 根据 所 过 到 的 标签 或 内 容 ， 按 事件 驱动 来 处 理 
XML。 对 于 所 发 生 的 事件 ， 调 用 相应 Listener 对 象 的 方法 。 在 
Listener 类 里 定义 想 要 处 理 的 事件 所 对 应 的 方法 ， 在 每 次 该 事件 发 后 
时 就 调用 那个 方法 。 


SAX 的 基本 使 用 方法 示 于 图 13-22 中 。SAX 产生 的 事件 示 于 表 13-3 








require 'rexml/document' 
require 'rexml/streamlistener' 
class MyListener <Listener 类 声明 
include REXML: :StreamListener <*include StreamListenenr 
def tag_start(name,attrs) < 定义 事件 对 应 的 方法 
print "tag:",name 每 次 事件 发 生 时 调用 的 参数 
if attrs.size > 6 随 事件 而 不 同 ， 比 如 tag_start 
print "，”，attrs.inspect 标签 开始 时 ， 参 数 是 标签 名 
end 和 属性 《 哈 希 ) 























print "\n" 
end 


# 
#) 
def text(content) < 本 文 《 纯 文本 ) 对 应 的 方法 ， 参 数 是 
unless content.strip == "" 本 文 内 容 〈 字 符 串 ) 
print "text: ", content,"\n" 
end 
end 
end 
filename = ARGV[6] 
REXML: :Document .parse_stream(File.open(filename),MyListener.new) 
1 以 Listener 类 为 参数 ， 调 用 parse_stream 























图 13-22 SAX 的 使 用 方法 





表 13-3 SAX 的 事件 





em 
A 























二 
二 
天 











version，encoding，standalone 








图 13-22 中 的 程序 ， 在 与 开始 标签 和 文本 相对 应 的 事件 中 输出 有 关 的 信 
妃 。 为 了 让 结果 更 容易 看 ， 一 不 表示 空 属 性 ， 二 不 表示 只 有 空白 的 
text 。 对 于 图 13-18 中 的 XML 数据 的 执行 结果 示 于 图 13-23 中 。 


tag:addressbook 

tag:entry 

tag:name, {"initial"=>"M"} 
text: 松 本 行 弘 
tag:zipcode 

text :699-0201 
tag:address 

text :松江 市 玉 汤 町 玉 造 
tag:tel 

text :90852-62-XXXX 
tag:entry 
tag:name，{"initial”=> "N"} 
text :网 络 应 用 通信 研究 所 
tag:zipcode 

text:690-6826 











tag:address 

text :松江 市 学 园 南 2-12-5 
tag:tel 

text :6852-28-XXXX 


tag:entry 
tag:name，{"initial”=> "R"} 
text :乐天 

tag:zipcode 

text :140-0002 

tag:address 

text :品川 区 东 品 川 4-12-3 
tag:tel 

text:03-0387-XXXX 











图 13-23 ”SAX 的 示例 程序 的 执行 结果 


作为 使 用 SAX 的 一 个 有 实用 性 的 例子 ， 试 着 写 一 个 程序 ， 检 醋 所 给 的 











( 像 是 ) XML 的 数据 是 否 是 良 构 的 。 图 13-24 中 的 程序 用 了 SAX， 但 
Listener 类 中 没有 定义 任何 方法 。 这 样 ， 就 不 处 理 任何 事件 ， 仅 仅 利 
用 了 SAX 的 stream parser 来 检查 能 否 正常 读 进来 。 


require “rexml/document 
require 'rexml/streamlistener' 
class WellFormedChecker 

include REXML::StreamListener 


end 
filename = ARGV[6] 
begin 


REXML: :Document .parse _ stream(File.open(filename), WellFormedChecker .new) 
printf "%s is well-formed\n", filename 

rescue REXML::ParseException => e 
printf "%s:%s", filename, e 

end 








图 13-24 XML 良 构 性 检查 


图 13-24 中 程序 的 执行 结果 示 于 图 13-25 中 。 图 13-25a 是 当 参 数 指定 的 
XML 为 良 构 时 的 输出 。 图 13-25b 是 非 良 构 时 〈 损 坏 了 ) 的 输出 。 


(a)well-formed 的 情况 
% xmlcheck.rb address.xml 
address.xml is well-formed 








(b) 损坏 时 的 情况 

% xmlcheck.rb broken.xml 

broken.xml: Missing end tag for 'address'(got "addressbook") 
Line:19 

Position: 564 

Last 86 unconsumed characters : 








图 13-25 XML 良 构 性 检查 程序 的 执行 结果 


最 后 ，REXML 中 XPath 的 使 用 方法 示 于 图 13-26 中 。XPath 在 从 XML 
树 中 抽取 满足 条 件 的 节点 时 非 各 方便。 

















require “rexml/document 
doc = REXML: :Document.new(File.read("address.xml")) < 取得 最 初 的 address 节点 
puts REXML: :XPath.first(doc，"//address") < 输出 :<address> 松 江 市 玉 汤 町 玉 造 </ 























puts REXML: :XPath .match(doc，"//name'") < 取得 全 部 name 节点 ， 返 回 数组 
# 输出 : 
# xname initial = 'M'> 松 本 行 弘 </namey> 

# <xname initial = 'N' > 网络 应 用 通信 研究 所 </name> 

# <xname initial = 'R'> 乐 天 </name> 

puts REXML: :XPath.match(doc，"//address/name") < 取得 address 节点 的 子 节 点 name 
# 输出 : 回 数 组 ， 这 次 的 XML 与 上 面 一 样 
# xname initial = 'M'> 松 本 行 弘 </namey> 

# <name initial = > 网 络 应 用 通信 研究 所 </name> 


















































# <xname initial = 'R'> 乐 天 </name> 

REXML: :XPath.each(doc,"//address[name/@initial='R']") do |e| < 对 子 节 点 name 

puts e R 的 全 部 addr 
# 输出 : en 中 5 
# <address> 

# <xname initial = 'R'> 乐 天 </name> 


# 《zipcode>146-6662</zipcodey> 

# 《<address> 品 川 区 东 品 川 4-12-3</address> 
t# <tel>603-6387-XXXX</tel> 

# </address> 

end 

















图 13-26 XPath 的 使 用 方法 


除 此 之 外 ，REXML 还 有 使 用 RelaxNG 的 验证 (validation〉 等 为 数 众多 
的 功能 ， 这 些 束 不 介绍 了 ， 以 后 有 机 会 再 说 吧 。 


13.3.9 XML 的 代替 


光 说 “XML 并 非 万 能 * 却 不 介绍 其 蔡 代 品 ， 也 许 是 不 负责 任 的 。 这 
绍 一 下 在 各 种 不 则 的 情况 下 ， 比 XML 更 合适 的 技术 。 因 为 这 次 主要 
介绍 XML 的 ， 所 以 对 于 其 他 技术 只 介绍 名 称 和 概要 。 有 
查阅 一 下 。 关 于 JSON 和 YAML， 本 书 第 5 章 有 讲解 。 


JSON (JavaScript Object Notation ) 


JSON 是 就 把 JavaScript 的 对 象 记 法 作为 数据 表现 格式 来 使 用 。JSON 数 
据 的 例子 示 于 图 13-27。 





[ 
{ 
"initial": "M", 


"name": "松本 行 弘 "， 


"zipcode": "699-0261"， 
"address" : "松江 市 玉 汤 町 玉 造 "， 
"tel: "6852-62-XXXX" 





"initial": "N", 

"name": "网 络 应 用 通信 研究 所 "， 
"zipcode": "690-6826"， 
"address": "松江 市 学 园 南 2-12-5"， 
"tel": "9852-28-XXXX"” 














"initial": "R", 

"name": "乐天 "， 

"zipcode": "146-0662”"， 
"address": "品川 区 东 品 川 4-12-3"， 
"tel": "03-6387-XXXX” 











图 13-27 JSON 数据 的 例子 


图 13-27 中 的 数据 相当 于 图 13-18 中 的 XML 数据 ， 但 与 XML 不 同 ， 没 
有 明确 的 标签 ， 在 表现 上 稍微 快 一 点 。 另 外 ，JSON 不 是 标记 语言 ， 不 
适合 于 表现 附加 了 信息 的 文本 那样 的 半 结 构 数 据 。 


将 JSON 数据 原封 不 动 地 作为 JavaScript 去 执行 ， 就 可 以 得 到 数据 表现 
所 对 应 的 对 象 。 但 是 JSON 数据 从 外 部 读 取 的 情况 较 多 ， 实 际 上 作为 
JavaScript 直接 执行 容易 引起 安全 上 的 问题 ， 即 使 效率 稍微 低 一 点 ， 也 
应 当 使 用 解析 JSON 的 库 。 


正如 其 名 ，JSON 是 JavaScript 的 对 象 表现 ， 作 为 数据 表现 语言 ， 其 语 
法 及 意义 部 定义 得 很 清晰 ， 所 以 Ruby 及 其 他 语言 都 文 持 它 。 


YAML (YAML ain't Markup Language) 

前 面 介 绍 过 的 YAML， 是 一 种 数据 格式 ， 有 着 一 个 不 知 其 所 云 的 名 字 ， 
即 所 谓 *YAML 不 是 标记 语言 "。YAML 是 作为 XML 的 对 立 面 而 诞生 
的 ， 具 有 以 下 特征 。 


完全 放弃 标记 性 记述 ， 专 注 于 数据 表现 ， 以 缩 进 为 基础 表现 数据 结构 ; 











不 要 标签 ， 可 以 对 应 各 种 语言 。 结 果 ， 在 用 作 数 据 表 现 及 配置 文件 时 ， 
上 共有 易 读 和 不 易 变 复杂 等 优点 。 实 际 上 ，YAML 在 Ruby on Rails 中 广 
泛 用 于 配置 文件 。 


为 一 方 和 面 ，YAML 到 底 还 是 数据 表现 语言 ， 没 有 相当 于 schema 的 东 
3 6 
13-28。 














- initial: M 
name: 松本 行 弘 
zipcode: 699-6281 
address: 松江 市 玉 汤 町 玉 造 
tel: 6852-62-XXXX 


initial: N 

name: 网 络 应 用 通信 研究 所 
zipcode: 6960-6826 

address: 松江 市 学 园 南 2-12-5 








tel: 6852-28-XXXX 

initial: R 

name: 乐天 

zipcode: 146-6002 

address: 品川 区 东 品 川 4-12-3 
tel: 63-6387-XXXX . 

















图 13-28 YAML 数据 的 例子 


活用 记号 和 缩 进 的 YAML， 比 JSON 更 简洁 。 考 虑 一 下 是 否 采 用 易 读 、 
易 编辑 的 数据 格式 YAML 吧 ， 应 该 不 错 的 。 但 正如 其 名 ，YAML 不 是 
标记 语言 ， 需 要 使 用 标记 语言 的 时 候 还 是 XML 合适 。 








Binary XML 


XML 效率 低 的 原因 在 于 ， 为 了 在 万 一 遇 到 什么 问题 的 时 候 让 人 容易 
读 ， 采 用 了 元 长 的 纯 文 本 。 这 样 做 虽然 有 这 样 做 的 好 处 ， 但 效率 低下 的 
问题 怎么 都 不 好 解决 。 


这 里 ， 与 通常 的 XML 有 等 价 意义 ， 但 效率 更 高 ， 采 用 二 进 制 表现 的 是 
Binary XML。 但 现状 是 还 没有 Binary XML 的 标准 规格 ， 只 有 多 种 实现 
版 本 。 





Protocol Buffer 


Protocol Buffer 〈 协 议 缓冲 ) 是 2008 年 美国 谷歌 《Google) 公司 作为 公 

开源 代码 发 布 的 数据 表现 形式 〈 及 相关 工具 软件 ) 。Protocol Buffer 是 

很 久 以 来 就 在 谷歌 内 部 使 用 的 进程 间 通 信 技 术 。 在 谷歌 数据 中 心 的 大 量 

计算 机 中 运行 的 进程 之 间 ， 进 行 着 大 量 的 信息 交换 处 理 。 这 些 进程 有 的 
以 Java 记述 ， 有 的 以 C++ 记述 ， 有 的 则 以 Python 记述 。 为 了 高 效 通 

ee 二 进 制 表现 它 ， 时 间 和 空间 效率 都 有 提高 ， 这 是 一 种 灵活 
现 。 


Protocol Buffer 中 ， 使 用 了 一 种 “数据 描述 语言 "来 定义 数据 结构 ， 然 后 
从 这 个 定义 生成 一 个 库 ， 将 原始 数据 变换 为 二 进 制 表现 〈 序 列 化 ) 。 


与 此 相 类 似 的 技术 ， 还 有 美国 Facebook 公司 开发 的 ， 后 来 作为 开放 源 
代码 的 Thrift。 与 仅仅 做 序列 化 的 Protocol Buffer 不 同 ，Thrift 连 远 程 过 
程 调用 (remote procedure call) 都 包括 了 。 











米 米 米 


本 节 介 绍 了 XML 的 优点 与 缺点 以 及 其 适用 的 领域 。 另 外 还 介绍 了 在 
XML 不 适合 使 用 的 领域 中 可 以 替代 XML 的 技术 。 


持久 数据 的 重要 性 


世界 上 充满 了 各 种 格式 的 数据 。 表 示 图 像 的 .jpg， 表 示 字 处 理 文 档 格 
式 的 .doc， 表 示 用 于 演讲 的 幻灯 片 的 .ppt 等 。 每 出 现 一 种 新 的 软件 ， 
就 增加 了 一 种 新 的 数据 格式 。 难 以 想象 世上 到 底 有 多 少 种 数据 格式 。 


但 是 ， 打 开 茶 些 数据 格式 会 成 为 十 分 杯 手 的 问题 。 有 一 天 ， 由 于 茶 种 
原因 我 需要 取出 自己 在 学 生 时 代 曾 经 使 用 的 非常 古老 的 数据 。 那 是 在 
现在 已 经 不 再 使 用 的 计算 机 中 运行 过 的 ， 现 在 已 经 不 再 使 用 的 字 处 理 
软件 的 数据 。 数 据 就 在 眼前 ， 但 软件 不 存在 了， 就 无 法 读 取 数 据 ， 也 
无 法 加 工 处 理 。 当 时 ， 也 没有 别 的 办 法 ， 我 只 能 根据 侥 季 残留 下 来 的 
打印 纸 ， 一 边 看 一 边 再 输入 一 次 ， 总 算 对 付 过 去 了 。 从 那 以 后 ， 我 对 
于 未 知 的 数据 格式 ， 总 有 一 种 挥 之 不 去 的 不 信任 感 。 将 来 可 能 会 用 到 
的 数据 ， 一 定 要 做 一 个 文本 数据 。 


历经 岁月 流逝 仍然 安全 的 数据 格式 ， 应 该 是 文本 文件 吧 。 如 果 是 文本 

















文件 ， 即 便 过 了 10 年 、20 年 、30 年 ， 依 然 能 读 。 实 际 上 ， 很 久 以 
前 ， 我 在 学 生 时 代 所 作 的 毕业 论文 ， 到 了 现在 还 能 读 出 。 即 使 像 
ASCII ~ EUC-JP -UTF-8 这 样 ， 字 符 编 码 方式 变迁 了 ， 也 不 至 于 完 
全 读 不 出 数据 。 同 样 ， 采 用 纯 文 本 的 电子 邮件 ， 这 30 年 来 ， 基 本 构 
造 也 没有 变化 。 能 有 这 样 的 安全 稳定 性 真是 了 不 起 。 


本 章 虽 然 对 于 XML 有 知 干 批判 性 的 记述 ， 但 至 少 XML 能 够 作为 纯 
文本 读 入 ， 经 得 起 长 时 间 保 存 这 一 点 ， 还 是 应 该 给 予 正面 评价 的 。 


话 昌 如 此 ， 即 便 数 据 经 得 起 保存 ， 但 保存 数据 的 媒介 却 又 成 了 问题 。 
比如 次 现在 已 经 找 不 到 软盘 驱动 器 了 。 


不 能 确定 现在 主流 的 硬盘 和 闪存 究竟 能 用 到 什么 时 候 。 我 学 生 时 代 的 
数据 ， 虽 然 几 乎 都 拿 出 来 保存 在 磁带 里 了 ， 但 已 经 没 办 法 读 出 来 了 。 
包括 我 最 初 开 发 的 编程 语言 〈 不 是 Ruby) 的 源 代 码 ， 等 于 已 经 失去 
下 




















这 样 看 来 ， 纸 对 于 人 类 文明 来 说 ， 真 是 一 个 伟大 的 发 明 。 如 果 不 是 有 
了 像 纸 和 刻 了 文字 的 石头 等 经 人 不 烂 而 且 可 以 读 出 的 媒介 ， 将 来 人 类 
文明 说 不 定 会 遇 到 失去 重要 信息 的 危险 。 








第 14 章 ”函数 式 编程 
14.1 新 范 型 一 函数 式 编程 


函数 式 编程 是 全 部 使 用 函数 来 编写 程序 代码 的 编程 方法 。 这 是 可 以 与 一 
般 的 结构 化 编程 〈C 或 者 Java) 及 面 问 对 象 编程 相提并论 的 编程 方法 。 


关于 函数 式 编程 这 种 叫 法 ， 一 般 认 为 起 源 于 FORTRAN 的 开发 者 John 
Backus 于 1977 年 在 图 灵 奖 授奖 仪式 上 所 做 的 讲演 ， 他 介绍 的 编程 语言 
FP 是 首先 使 用 这 个 名 字 的 。 

以 函数 为 中 心 的 函数 式 编程 具有 如 下 的 特征 : 

。 函数 本 身 也 作为 数据 来 处 理 〈 第 一 级 函数 ) 

。 以 函数 为 参数 的 高 阶 函 数 ; 

。 参数 相同 即 可 保证 结果 相同 的 引用 透明 性 ; 

。 为 实现 引用 透明 性 ， 禁 止 产生 副作用 的 处 理 。 
人 





谁 也 不 会 否认 计算 机 的 基础 是 数学 。 不 管 是 算法 ， 还 是 计算 机 科学 的 基 
础 部 分 ， 都 是 与 数学 密 不 可 分 的 。 函 数 是 数学 领域 己 经 使 用 了 几 百 年 的 
概念 ， 非 党 适合 于 用 数学 的 形式 来 表述 。 


举 个 例子 吧 。 大 家 都 知道 阶乘 的 概念 ， 数 学 上 用 nl! 来 表示 阶乘 ， 它 是 
1 到 mn 的 所 有 整数 的 乘积 。 根 据 这 个 定义 ，3 的 阶乘 等 于 1x2x3， 结 
是 6。 稍 微 改 进 一 下 ， 用 数学 的 形式 来 写 的 话 ， 就 变 成 下 面 的 式 子 : 


n1 一 1 n 等 于 1 的 时 候 
nl 二 n x (n-1)! n>1 的 时 候 





这 个 阶乘 的 定义 是 利用 归纳 法 ， 通 过 阶乘 本 身 来 定义 阶乘 。 


(a) 阶乘 计算 的 结构 化 程序 
def fact(n) 
fct = 1 
whilen >1 
fct = fct * n 








(b) 阶乘 计算 的 函数 型 程序 
def fact(n) 
if n == 1 
1 





else 
n * fact(n-1) 
end 
end 





图 14-1 阶乘 计算 的 程序 


图 14-1a 是 用 结构 化 编程 方式 编写 的 阶乘 计算 的 程序 。 在 一 次 次 减 小 n 
的 同时 ， 把 n 和 变量 fct 的 乘积 赋 给 变量 fct 。 有 编程 经 验 的 人 ， 差 
不 多 可 以 想象 出 局 部 变量 n 和 fct 的 值 在 计算 过 程 中 变化 的 样子 。 


另 一 方面 ， 图 14-1b 是 用 函数 式 编程 方式 来 编写 的 阶乘 计算 的 程序 。 仔 
细 看 一 下 就 会 明白 ， 这 种 程序 的 写法 与 上 边 阶 乘 的 归纳 法 定义 几乎 完全 
和 
工 No 


但 是 ， 并 不 是 所 有 的 软件 都 是 以 数学 算法 为 中 心 的 ， 其 他 时 候 函 数 式 纺 
程 也 能 有 令 人 欣 豆 的 表现 吗 ? 


言 奉 阔 数 式 编程 的 人 相信 ， 不 管 在 任何 场合 ， 函 数 式 编程 都 是 有 益 的 ， 
而 这 种 信念 确实 有 其 正确 性 。 


让 我 们 再 回头 来 看 看 图 14-1 的 程序 。 采 用 结构 化 编程 方式 编写 的 程序 
(a) 是 在 改变 变量 值 的 同时 进行 计算 的 。 因 此 ， 需 要 一 直 注 意 着 ， 这 
个 变量 的 值 现在 是 什么 ， 并 据 此 来 预想 计算 过 程 。 


























另 一 方面 ， 采 用 函数 式 编程 方式 (b) 并 不 改变 变量 的 值 。 实 际 上 它 只 
古 把 阶乘 的 定义 “整数 n 和 它 的 阶乘 之 间 是 这 样 一 种 关系” 换 了 个 描述 方 
式 而 已 。 这 种 编程 方式 中 并 不 包含 状态 或 者 动作 等 信息 ， 仅 仅 是 对 想 要 
做 什么 加 以 描述 ， 这 样 不 容易 出 错 。 


ee 而 是 描述 A 尔 为 声明 式 编程 。 声 明 式 
描述 是 函数 式 编 程 的 一 大 优点 


文 持 这 种 函数 式 编程 的 语言 有 很 多 。 受 到 数学 强烈 影响 的 函数 式 编 程 语 
言 大 多 很 难 走出 象牙 之 搭 ， 下 面 介 绍 其 中 有 名 而 又 实用 的 几 种 语言 。 


14.1.1 具有 多 种 函数 式 性 质 的 Lisp 


Ee a mp 
基础 是 Church 先生 的 lambda 演算 +11， 函数 本 身 也 作为 数据 来 处 理 ， 

有 函数 的 第 一 级 性 质 ， 并 因此 文 持 以 函数 为 参数 的 高 阶 函 数 ， a 
具备 函数 式 语 言 的 很 多 性 质 。 


1 lambda 演算 是 指 把 函数 定义 和 执行 抽象 化 的 计算 模型 


下 面 来 看 一 下 用 Lisp 编写 的 阶乘 计算 程序 。 除 了 括号 比较 多 之 外 ， 
体 上 讲 与 Ruby 采用 函 式 程 广 式 绩 写 的 阶 亲 计算 程序 非常 诅 似 。 


(defun fact (n) 
(if (= n 1) 























1 
(* n (fact (- n 1))))) 





Lisp 最 大 的 特征 是 S 式 记 法 。S 式 是 括号 很 多 的 Lisp 的 记 法 。 初 学 者 都 
非常 讨厌 Lisp 的 括号 ， 但 习惯 了 之 后 ， 就 会 发 现 它 的 优点 。$ 式 无 与 伦 
比 的 优点 是 它 彻 底 的 统一 性 。 也 惑 是 说 ， 对 Lisp 而 言 ， 不 管 什 么 都 可 
以 统一 成 的 单一 形式 。 其 他 语言 只 是 在 函数 调用 时 采用 这 种 形式 ， 而 
Lisp 的 函数 定义 、 数 据 结构 定义 、 算 式 以 及 流程 控制 等 ， 全 都 采用 这 种 
形式 。 昌 然 也 有 人 讨厌 Lisp 括号 太 多 ， 但 只 要 正确 地 处 理 好 缩 进 对 
齐 ， 这 实际 上 并 不 是 什么 大 问题 。 如 果 使 用 像 Emacs 一 样 支持 S 式 的 
编辑 器 ， 它 能 找 出 对 应 的 括号 ， 目 动 调整 纵 进 。 





(函数 ”参数 ) 


第 二 个 重要 之 处 在 于 链 这 种 数据 结构 。Lisp 语言 本 名 是 List 
Processor〔 链 表 处 理 器 ) ， 这 从 一 个 侧面 也 说 明了 链 的 重要 性 。 


链 是 一 种 构成 树 结构 数据 的 通用 数据 结构 ， 构 成 数据 结构 的 节点 分 别 包 
含 两 个 引用 。 


Lisp 把 节点 称 为 cons 单元 ， 第 一 个 引用 称 为 car ， 第 二 个 引用 称 为 
cdr ， 其 中 cons 这 种 叫 法 来 自生 成 新 单元 的 函数 cons (construct 的 
省 略 ) 。 因 为 最 初 的 Lisp 处 理 占 把 car 数据 放 在 地 址 寄存 器 ， 把 cdr 
数据 放 在 数据 寄存 器 ， 所 以 contents of address register (地址 寄存 器 内 
容 ) 省 略为 car ，contents of data register (数据 寄存 器 内 容 ) 省 略为 


cdr 。 


另外 ，cons 单元 以 外 构成 链 的 数据 元 素 〈 和 符号、 数值 等 ) 称 为 原子 
(atom ) 。 所 以 ， 链 就 是 atom 和 cons 单元 构成 的 树 型 数据 吉 构 (图 
14-2) 。 





{1 (2 3) a) ese 链 
[car | car | cons 网 格 
上 
ston1 [es TS] 


En 
nil i 空 链 


i 
图 本 Lisp 的 链 


单 看 S 式 的 话 ， 感 觉 链 好 像 跟 数组 是 一 样 的 ， 实 际 上 它 是 像 用 环 链 接 在 
一 起 的 递归 数据 结构 。 这 种 递归 数据 结构 非常 适合 于 函数 式 编程 ， 在 
Lisp 以 外 的 函数 式 编 程 语言 百 中 也 得 到 广泛 的 应 用 。 


函数 式 编 程 常 癌 通 过 目 我 调用 来 实现 递归 调用 ， 利 用 这 种 方式 可 以 很 目 
然 地 处 理 链 这 样 的 递归 数据 结构 。 


比如 ， 让 我 们 来 定义 一 个 链 的 求 和 函数 1ist-sum (参见 图 14- 
3) 。1ist-sum 首先 取出 链 的 头 一 个 数据 (car ) ， 然 后 对 剩 下 的 数据 
(cdr ) 同样 调用 list-sum 函数 ， 最 后 再 求 和 。 链 这 种 数据 结构 是 递 





(defun list-sum (x) 
(if (null x) 
0 


(+ (car x) (list-sum (cdr X))))) 





图 14-3 ”对 链 进 行 求 和 的 list-sum 


综 上 所 述 ，Lisp 具备 了 函数 编程 语言 的 基本 特征 。 但 是 力 一 方面 ，Lisp 
是 一 种 历史 悠久 的 语言 ， 不 直接 文 持 多 数 纯粹 的 函数 式 编 程 语言 所 拥有 
的 副作用 * 如 回避 以 及 延迟 计算 等 功能 。 它 对 变量 的 赋值 没有 任何 限 
制 ， 习 惯 了 结构 化 编程 的 程序 员 《〈 比 如 我 ) 在 编写 Lisp 程序 的 时 候 ， 
因为 括号 太 多 ， 很 难 适 应 函数 式 编程 的 风格 。 当 然 各 有 各 的 选择 ， 这 也 
不 是 什么 坏事 。 


2 指 因为 某 种 处 理 而 使 程序 状态 发 生变 化 。 结 果 是 ， 同 样 的 输入 却 不 能 产生 同样 的 输出 。 
近年 来 ， 由 于 像 Haskell 这 样 的 彻底 的 函数 式 编 程 语 言 的 兴起 ，Lisp 作 


为 函数 式 编 程 语言 在 人 们 心中 的 印象 变 得 越 来 越 淡 注 。 下 面 就 来 介绍 
Haskell 。 















































14.1.2 ”彻底 的 函数 式 编程 语言 Haskell 


Haskell 可 以 说 是 纯粹 的 函数 式 编 程 语言 。 也 就 是 说 ， 语 言 定义 的 本 号 
与 国 数 式 编 程 密切 相关 ，Haskell 编程 与 函数 式 编程 是 不 可 分 割 的 。 使 
A A en A 
ee 


Haskell 是 用 数学 家 和 逻辑 学 家 Haskell Curry 的 名 字 命 名 的 。 用 人 名 来 
命名 编程 语言 也 是 很 有 传统 的 (比如 : Pascal、Ada、Occaml 和 B 

等 ) 。Haskell Curry 先生 对 函数 的 应 用 很 有 研究 ， 他 的 组 合 论 与 Alonzo 
Church 先生 的 lambda 演算 几乎 是 一 样 的。 另外 ， 函 数 的 部 分 应 











用 “Curry 化 ”也 是 用 他 的 名 字 来 命名 的 。 
Haskell 语言 有 如 下 特征 : 

。 没有 副作用 ; 

。 高 阶 函 数 ; 


。 图 数 部 分 应 用 ， 





E33 
赫 
HT 
这 


链 内 包 表 达 式 ; 

。 用 对 齐 来 表示 块 。 

最 后 两 个 是 纯粹 的 语法 问题 ， 其 他 特征 都 与 函数 式 编 程 风 格 密切 相关 。 
下 面 对 Haskell 的 主要 特征 加 以 说 明 。 首 先 ，Haskell 程序 基本 上 没有 副 
作用 ， 也 就 是 说 ， 不 但 不 能 改变 变量 的 值 ， 就 连 链 的 元 素 也 是 不 能 改变 
的 。 从 某 种 意义 上 说 ， 这 是 一 种 非常 简洁 的 编程 风格 。 
但 是 ， 如 果 不 能 改变 变量 的 值 的 话 ， 那 程序 该 怎么 编写 呢 ? 


首先 ，Haskell 程序 中 看 起 来 像 是 变量 的 名 字 ， 实 际 上 不 过 是 函数 参数 
或 是 值 的 别名 。 因 此 ， 根 本 就 不 存在 作为 保存 变量 值 的 变量 。 


Haskell 把 其 他 语言 中 改变 变量 值 的 处 理 ， 都 对 应 为 重新 生成 一 部 分 有 
生变 化 的 新 数据 。 因 此 ，Haskell 没有 赋值 ， 只 有 给 陈 命 名 ， 称 为 绑 
十 。 




















没有 变量 ， 任 何 值 都 不 会 发 生变 化 ， 因 此 ， 只 要 参数 不 变 ， 函 数 的 返回 
值 也 就 总 是 一 样 的 。 相 同 输入 总 能 返回 相同 结果 ， 这 种 可 重复 性 对 测试 
程序 非常 有 利 。 这 种 重复 性 也 称 为 引用 透明 性 。 它 和 下 面 的 静态 多 态 类 
型 系统 结合 起 来 ， 使 Haskell 这 种 函数 式 编程 语言 比 其 他 的 编程 风格 更 





难以 出 错 。 


Haskell 的 第 二 个 特征 是 局 阶 尔 数 把 函数 本 映 作为 数据 来 处 理 。 比 如 ， 
中 没有 循环 控制 结构 ， 循 环 都 是 用 递归 调用 或 者 高 阶 函 数 来 实 
现 的 。 


14.1.3 ”延迟 计算 : 不 必要 的 处 理 就 不 做 
第 三 个 特征 延迟 计算 的 意思 是 必要 的 时 候 才 进行 处 理 。 这 个 说 法 不 够 直 


观 ， 让 我 们 来 看 看 实际 的 程序 。 图 14-4 中 的 Haskell 程序 类 似 于 UNIX 
head 命令 ， 从 标准 输入 读 取 数据 ， 只 把 前 10 行 输出 到 标准 输出 设备 











main = do cs <- getContents 
putStr (headLines 16 cs) 
headLines n cs = unlines (take n (lines cs)) 








图 14-4 使 用 延迟 计算 的 Haskell 程序 


Haskell 的 语法 不 进行 详细 说 明 ， 只 对 构成 程序 的 Haskell 函数 略 
[讲解 。 


main 是 程序 的 入 口 点 。 执 行程 序 的 时 候 ， 首 先 执行 main 函数 ， 这 与 C 
很 相似 。do 意味 着 按照 顺序 执行 相同 缩 进 水 平 的 表达 

式 。getContents 把 标准 输入 的 数据 全 部 读 进 来 。lines 返回 按 行 分 

割 后 的 字符 串 列 表 。take 是 从 列表 中 取出 前 n 个 元 素 。unlines 是 把 
字符 串 的 列表 合并 成 一 个 字符 串 。 


简单 地 说 ， 图 14-4 中 程序 的 意思 是 ， 读 取 标准 输入 的 全 部 数据 并 显示 
前 10 和 数据 。 但 是 ， 这 仅仅 是 程序 的 意思， 实际 执行 时 的 动作 并 不 
定 完全 一 样 。 


例如 ， 当 从 标准 输入 来 的 数据 非常 庞大 的 时 候 ， 该 怎么 处 理 

呢 ? getContents 表示 把 标准 输入 的 数据 全 部 读 进 来 ， 按 照 一 般 的 想 
法 ， 它 会 把 非常 庞大 的 字符 串 全 部 读 进 来 ， 然 后 按 行进 行 分 割 ， 把 前 
10 行 取 出 来 之 后 ， 再 合并 成 一 个 字符 串 并 输出 。 前 10 行 以 外 的 数据 读 
进来 就 扔 挤 ， 根 本 没有 进行 任何 处 理 ， 这 是 很 大 的 浪费 。 


























试 者 用 上 面 的 程序 来 读 取 一 个 192 万 行 、62M 的 文本 数据 。 令 人 吃惊 的 
是 ， 程 序 的 执行 瞬间 完成 ， 也 几乎 没有 占用 什么 内 存 。 


实际 上 在 用 Haskell 对 值 进行 计算 的 时 候 ， 只 进行 必要 的 处 
理 ，getContents 仅仅 从 标准 输入 读 取 take 要 处 理 的 前 10 行 数据 ， 
而 并 没有 读 取 其 他 数据 ， 这 就 是 延 人 运 计 算 。 


与 一 般 的 编程 语言 不 同 ， 具 有 延迟 计算 性 质 的 编程 语言 在 字面 上 的 意思 
与 实际 处 理 是 不 一 样 的 。 不 进行 多 余 的 处 理 ， 即 使 是 无 限 连续 的 数据 也 
能 处 理 ， 这 是 这 种 语言 的 优点 。 为 一 方面 ， 程 序 的 语句 与 实际 的 处 理 不 
古 直 接 对 应 的 ， 一旦 出 点 儿 什 么 问题 ， 很 难 判断 问题 出 在 什么 地 方 ， 这 
征 这 种 语言 的 缺点 。 


14.1.4 灵活 的 “静态 多 态 性 ”类 型 系统 


与 没有 类 型 的 Ruby 语言 不 同 ，Haskell 是 在 编译 时 确定 所 有 变量 类 型 的 
静态 类 型 语言 。 但 实际 上 Haskell 程序 基本 上 没有 必要 给 出 变量 的 类 
型 。 这 是 因为 聪明 的 Haskell 语言 处 理 系统 会 推测 变量 的 类 型 。 


Haskell 的 类 型 系统 不 是 像 C 那样 的 不 完全 类 型 ， 而 是 健全 的 。 因 此 ， 

Haskell 程序 如 果 编 译 不 出 错 的 话 ， 那 就 证 明 该 程序 的 类 型 系统 没有 问 
题 。 这 时 ，Haskell 程序 也 绝对 不 会 发 生 因 为 类 型 不 匹配 而 异常 中 断 的 
事情 。 还 有 ， 因 为 类 型 与 算法 的 本 质 是 密切 相关 的 ， 类 型 检查 可 以 排除 
大 量 的 程序 错误 。 


静态 类 型 因为 缺乏 灵活 性 而 受到 批判 。 像 Java 等 ， 仅 仅 接受 预先 声明 
03 0 





























动态 类 型 语言 不 进行 这 样 的 类 型 检 本， 显得 非 第 宽容， 只 要 拥有 相同 的 
方法 ， 什 么 对 象 都 可 以 ， 这 束 带 来 了 科 软 性 ， 这 种 风格 称 为 duck 
typing。 


Haskell 利用 多 态 性 的 类 型 系统 和 类 型 推测 ， 在 维持 着 接近 于 duck 
typing 灵活 性 的 同时 ， 也 使 编译 时 的 完全 类 型 检查 成 为 可 能 。 但 是 ， 如 
果 类 型 推测 出 点 儿 问 题 ，Haskell 程序 出 了 类 型 错误 的 话 ， 就 会 出 现 令 
初学 者 感到 妨 惧 的 错误 。 





14.1.5 ”近代 函数 式 语 言 之 父 OCaml 


OCaml 也 是 具有 代表 性 的 函数 式 编 程 语言 之 一 。 它 比 Haskell 还 古老 ， 
说 它 是 近代 函数 式 语 言 之 父 也 曼 不 为 过 。 


OCaml 起 源 于 法 国 ， 在 欧洲 很 受 欢 迎 ，O:Reilly 最 早出 版 的 讲解 OCaml 
的 书籍 就 是 法 语 版 的 。 即 使 没有 这 些 ， 函 数 式 语言 在 法 国 也 是 备 受 欢迎 
的 ， 也 许 是 因为 喜欢 数学 的 人 多 吧 。 
与 Haskell 相 比 ，OCaml 具有 如 下 的 不 同 之 处 : 

。 有 副作用 ; 

。 没有 延迟 计算 ; 

。 具有 强力 的 模块 系统 。 
同样 是 函数 式 语 言 ， 前 面 两 点 表明 了 Haskell 和 OCaml 设计 思想 的 不 











当然 ，OCaml 也 并 不 推荐 使 用 赋值 以 及 改变 变量 值 等 具有 副作用 的 计 
算 ， 但 与 从 语言 上 禁止 副作用 的 理论 派 Haskell 相 比 ，OCaml 给 人 以 实 
用 派 的 印象 ， 在 必要 的 时 候 不 惜 牺牲 一 些 理论 ， 人 允许 具有 副作用 的 计 
算 ， 延 迟 计算 也 是 这 样 。 如 果 想 用 OCaml 来 进行 延迟 计算 的 话 ， 需 要 
明确 地 进行 迟延 处 理 。 


虽然 不 像 Haskell 那样 目 然 地 做 到 延迟 计算 ， 但 换 来 的 好 处 是 ， 程 序 内 
容 与 实际 处 理 关 系 接近 ， 使 人 容易 理解 程序 的 执行 过 程 。 


14.1.6” 强 于 并 行 计算 的 Erlang 


Erlang 也 是 函数 式 编程 语言 ， 最 近 越 来 越 受到 关注 。 作 为 函数 式 编程 语 
言 ，Erlang 具有 如 下 令 人 回味 的 两 个 特点 。 


。 受到 Prolog 的 影响 


。 专 用 于 并 行 计算 











提 到 Prolog， 它 最 早 是 在 第 5 代 计 算 机 研究 中 受到 人 们 关注 的 理论 型 编 
程 语言 。 昌 然 两 种 语言 都 有 很 强 的 数学 背景 ， 但 函数 型 语言 的 诞生 受到 
理论 型 语言 影响 ， 这 对 我 来 说 还 是 一 件 意 外 的 事 。 也 许 对 于 具有 数学 系 
养 的 人 而 言 ， 这 并 不 是 什么 令 人 吃 慰 的 事 。 


与 Haskell 和 OCaml 不 同 ，Erlang 没有 类 型 (动态 类 型 ) ， 也 没有 延迟 
计算 ， 这 也 是 令 人 党 得 有 趣 的 地 方 。 


Erlang 的 存在 意义 就 在 于 并 行 计 算 ， 这 种 说 法 坚 不 夸 张 。Erlang 的 基本 
是 基于 actor 理论 的 并 行 计 算 。 如 果 不 使 用 actor (Erlang 术语 是 过 程 ) 
的 话 ，Erlang 基本 上 无 法 进行 任何 处 理 。 


Erlang 是 针对 并 行 计算 而 设计 的 ， 这 与 它 是 函数 式 编 程 语言 也 不 无 关 
系 。 其 至 可 以 说 ， 就 是 因为 要 进行 并 行 计 算 ， 所 以 才 选 择 了 函数 式 编程 
风格 。 函 数 式 编程 没有 副作用 。 改 变数 据 时 的 同步 处 理 是 并 行 计算 中 最 
膝 焕 的 部 分 ， 而 如 果 根 本 残 没有 赋值 、 根 本 就 不 去 改变 数据 的 话 ， 同 步 
处 理 也 就 没有 必要 了 。Erlang 程序 束 不 必 担 心 数据 访问 的 同步 问题 。 


就 今后 CPU 的 发 展 方 癌 而 言 ， 不 能 再 指望 单个 CPU 的 处 理 速度 飞速 提 
高 ， 理 所 当然 是 在 一 合计 算 机 上 安装 多 个 CPU， 瑚 多核 方 网 发 展 。 在 多 
核 时 代 ， 软 件 也 需要 适应 多 核 ， 但 对 我 们 来 说 ， 并 行 编程 还 是 一 个 非常 
困难 的 领域 。 以 Erlang 为 起 点 的 函数 式 编程 语言 ， 没 有 副作用 也 不 需要 
同步 ， 具 有 非 第 适合 于 并 行 计 算 的 性 质 。 


14.1.7 用 Ruby 进 行 函 数 式 编程 


那么 让 我 们 来 看 一 下 ， 如 果 用 面向 对 象 的 编程 语言 Ruby 来 进行 函数 式 
编程 的 话 ， 应 该 怎么 做 呢 ? 


从 函数 式 编程 观点 来 看 Ruby 的话， 有 几 点 需要 留意 的 地 方 。 首 先 ， 最 
重要 的 一 点 就 是 Ruby 没有 函数 。 


Ruby 的 各 种 处 理 全 是 方法 ， 也 就 是 说 任何 处 理 总 是 和 某 个 对 象 紧密 地 
结合 在 一 起 。 比 如 ， 即 使 是 输出 的 print ， 它 也 是 0bject 类 的 方法 ， 
只 是 因为 所 有 的 类 都 是 从 0bject 继承 的 ， 所 以 可 以 省 略 调用 的 对 象 ， 
使 用 时 看 起 来 像 函 数 一 样 。 


这 就 抹 烦 啦 。 这 么 说 来 ， 难 道 Ruby 是 不 可 能 进行 函数 式 编程 ? 









































哎 ， 没 有 这 样 的 事 。 当 然 Ruby 最 初 不 是 作为 函数 式 编 程 语言 而 设计 的 ， 
不 可 能 像 Haskell 一 样 来 进行 函数 式 编程 ， 但 应 用 Ruby 也 完全 能 够 实现 
函数 式 编程 的 精髓 。Ruby 中 有 几 个 能 进行 函数 式 编程 的 工具 。 

Proc 对 象 (Lambda ) 


Ruby 中 唯一 与 函数 直接 对 应 的 是 Proc 对 象 。 换 个 说 法 就 是 ，lambda 
方法 返回 的 是 对 象 化 的 处 理 块 。Proc 对 象 的 call 方法 执行 块 的 处 理 。 


在 Ruby 1.9 中 ， 可 以 用 如 下 的 方式 进行 调用 《注意 括号 前 面 有 一 个 点 ) 


proc.(arg) 


这 种 处 理 很 类 似 于 其 他 语言 的 函数 调用 。 

程序 块 

以 程序 块 为 参数 的 方法 等 价 于 函数 型 语言 的 高 阶 函 数 。 也 就 是 说 ， 有 灵活 
运用 以 程序 块 为 参数 的 方法 ， 束 可 以 实现 函数 式 编程 的 局 阶 函数 的 技 
巧 。 


进而 在 Ruby 1.9 中 ， 不 用 lambda 方法 ， 而 用 如 下 的 语法 


->(args){...} 


也 可 以 得 到 Proc 对 象 。 随 着 隙 数 式 编程 风格 的 普及 ， 预 计 到 使 用 Proc 
对 象 的 机 会 会 越 来 越 多 ， 所 以 增加 了 这 个 比 lambda 还 简洁 的 表达 方 
Ns 


枚 举 器 
枚 举 占 是 从 Ruby 1.8.7 开始 正式 引入 的 ， 它 的 each 方法 可 以 循环 返回 


对 象 。Ruby 没有 延迟 计算 ， 但 使 用 枚 举 嚣 对 数组 和 列表 进行 循环 ， 可 
以 实现 类 似 于 延迟 计算 的 处 理 。 





避免 副作用 


面 问 对 象 的 编程 中 ， 副 作用 是 几乎 无 所 不 在 的 ， 调 用 方法 来 改变 对 象 的 
0 


所 请 避免 副作用 ， 残 是 对 生成 的 对 象 ， 尺 量 少 去 改变 其 状态 。 人 和 仔细 想 一 
下 整 会 明白 ， 我 们 在 调试 程序 的 时 候 ， 总 是 在 程序 里 到 处 加 入 print 
0 


但 是 ， 如 果 不 改写 数据 的 话 ， 它 就 总 是 处 于 相同 的 状态 。 因 此 ， 数 据 状 
态 变 得 不 明白 的 风险 就 会 剧 减 。 

具体 次 来 ， 避 免 调用 改变 字符 串 或 数组 内 容 的 方法 〈 比 如 gsub!、<< 
等 ) ， 设 计 类 的 时 候 避 免 改变 实例 变量 的 方法 ， 都 是 行 之 有 效 的 方针 。 
即使 不 局 限于 使 用 函数 式 纺 程 语言 ， 减 少 副作用 也 是 很 有 益处 的 。Ruby 
的 群发 邮件 中 有 一 个 初学 者 常常 容易 个 绊 住 的 例子 (参见 图 14-5) 。 

e 生成 有 三 个 元 素 的 数组 


a= ["abcd"] * 3 
pa#=> ["abcd", "abcd", "abcd"] 























e 改变 第 一 个 元 素 的 内 容 
sS=a[6] 

s.upcase! 

ps# => "ABCD" 





。 其 他 的 元 素 也 随 之 发 生变 化 
p a # => ["ABCD","ABCD","ABCD"] 


























图 14-5 关于 副作用 的 例子 

图 14-5 的 程序 首先 生成 一 个 有 3 个 元 素 的 数组 ， 然 后 改变 其 第 一 个 元 
素 〈 字 符 串 ) 的 内 容 。 但 在 这 个 时 候 ， 检 查 一 下 数据 就 会 发现， 本 来 
只 想 改变 第 一 个 元 素 ， 结 果 是 数组 中 所 有 元 素 的 值 都 被 改变 了 。 


初学 者 看 到 数据 被 出 乎 意料 地 改变 ， 往 往 会 怀疑 "这 不 会 是 Ruby 的 程序 








错误 吧 ”。 实 际 上 因为 数组 各 元 素 引 用 的 都 是 同一 个 字符 串 对 象 ， 所 以 
改变 第 一 个 元 素 也 会 同时 改变 数组 中 其 他 元 素 。Ruby 程序 通过 引用 构 
建 了 对 象 的 网 络 ， 如 果 不 留心 的 话 ， 改 变 对 象 的 内 容 会 市 来 意 想 不 到 的 


影响 。 
14.1.8 用 枚 举 吉 来 实现 延迟 计算 


从 Ruby 1.8.7 开始 ， 很 多 以 块 为 参数 的 方法 在 参数 不 是 块 的 时 候 ， 惑 会 
返回 枚 举 器 。 


枚 举 器 就 是 把 循环 用 对 象 来 表达 的 一 种 方法 。 例 如 ， 从 each 方法 返回 
的 枚 举 占 ， 就 可 以 把 传递 给 each 方法 的 值 按 顺序 取出 来 (参见 图 14- 
Gs 





e = [1,2,3,4].each 
loop do 
p e.next 





IDH 。 
J 





图 14-6 ”关于 枚 举 器 的 例子 


使 用 这 样 的 枚 举 器 可 以 实现 与 Haskell 类 似 的 延迟 计算 。 与 Haskell 的 列 
表 不 同 的 是 ， 因 为 Ruby 本 身 并 不 具备 延迟 计算 的 功能 ， 所 以 对 于 数组 
的 求 值 是 一 下 子 同 时 求 出 数组 中 所 有 的 元 素 。 


Ne et 
亨 。 


puts ARGF .readlines .take(16) 


初 看 起 来 ， 它 比 Haskell 版 还 要 短 许 多 ， 但 这 个 程序 是 把 标准 输入 的 数 
所 全 部 读 进 内 存 的 ， 如 果 传 递 的 数据 非 第 大 ， 那 么 占用 内 存 束 会 非常 














大 ， 执 行 时 间 也 会 变 得 很 长 。 


程序 中 出 现 的 ARGF 是 个 虚拟 文件 ， 代 表 标 准 输入 或 者 是 用 参数 指定 的 
文件 输入 。ARGF 的 readlines 方法 读 取 ARGEF 所 代表 的 虚拟 文件 ， 返 
回 字 符 串 数组 。take 方法 取出 数组 前 头 的 元 素 〈 这 里 是 前 10 

行 ) 。take 方法 返回 数组 ， 该 数组 又 作为 puts 方法 的 参数 ， 照 原样 打 
印 到 标准 输出 上 。 


与 Haskell 版 相 比 ，ARGF 本 来 就 是 以 行为 单位 进行 处 理 而 设计 的 ，puts 
会 把 字符 串 数组 原封 不 动 地 输出 ， 因 为 有 了 这 些 不 同 ， 程 序 变 得 非常 简 


VE 
1 日 o 


这 里 的 问题 在 于 readlines 方法 会 一 下 子 读 取 文件 的 全 部 内 容 。 实 际 
上 让 这 个 程序 读 一 下 传递 给 Haskell 版 的 同一 文件 时 ， 执 行 时间 是 2.19 
秒 。 这 里 如 果 能 够 实现 延迟 计算 的 话 ， 程 序 就 会 像 Haskell 版 一 样 不 进 
行 多 余 的 读 取 处 理 ， 程 序 的 执行 就 会 在 一 瞬间 完成 。 


为 此 ， 我 们 把 一 下 子 读 取 全 部 文件 内 容 并 返回 字符 串 数组 的 readlines 
方法 替换 成 返回 枚 举 器 的 each 方法 。 使 用 each 方法 的 程序 变 成 下 面 
的 样子 (实际 上 ARGF 有 take 方法 ， 本 来 是 不 需要 调用 each 方法 的 ， 
0 但 为 了 使 用 枚 举 器 ， 这 里 特意 调用 了 each 方 

法 ) 。 


puts ARGF .each.take(16) 


因为 传递 给 ARGF 的 each 方法 的 参数 不 是 块 ， 我 们 就 可 以 得 到 一 个 枚 
举 器 ， 它 表示 each 应 该 返回 各 行 数组 。 


对 同样 的 数据 来 执行 枚 举 器 版 程序 时 ， 这 次 的 执行 时 间 变 成 了 0.02 
秒 。 程 序 执行 速度 提高 了 100 倍 。 按 照 同样 方法 使 用 枚 举 器 的 话 ，Ruby 
也 可 以 实现 对 无 限 长 列表 的 操作 。 


通过 以 上 的 例子 ， 我 想 读 者 已 经 明白 了 ，Ruby 虽然 没有 Haskell 那样 的 
默认 的 延 人 运 计 算 ， 但 如 果 灵 活 运 用 枚 举 器 等 工具 的 话 ，Ruby 也 基本 上 
能 够 很 目 然 地 实现 延迟 计算 。 




















14.2 ”自动 生成 代码 


置身 于 计算 机 行业 ， 我 们 会 强烈 地 感觉 到 日 本 很 容易 受到 外 国 的 影响 。 
计算 机 拉 术 差不多 都 来 源 于 外 国 ， 这 也 是 无 可 隶 何 的 事 。 在 美国 制造 的 
硬件 体系 结构 的 PC 上 ， 使 用 美国 开发 的 操作 系统 《我 使 用 的 是 芬兰 开 
发 的 ) ， 使 用 的 应 用 程序 也 大 都 是 外 国 开发 的 。 同 样 ， 日 本 软件 的 流行 
也 总 是 落后 于 美国 半年 或 数 年 之 入， 只 要 了 解 一 下 海外 的 情况 ， 大 致 就 
可 以 预测 日 本 软件 行业 的 未 来 。 


纯粹 由 日 本 发 明 的 Ruby 也 有 同样 的 倾 回 。 先 是 Ruby on Rails 框架 在 志 
界 上 得 到 了 广泛 的 关注 ， 然 后 日 本 国内 也 开始 发 生变 化 ， 以 软件 开发 为 
生 的 人 也 开始 关注 Ruby。 以 往 总 是 使 用 Java 或 PHP 的 程序 员 也 开始 考 
处 用 Ruby 来 开发 工作 上 的 软件 。 以 前 我 兽 经 听 到 过 有 人 说 “虽然 学 习 了 
Ruby， 但 在 工作 中 却 没 有 使 用 的 机 会 >? 这样 的 话 ， 现 在 又 感 党 到 日 本 也 
终于 进步 了 。 但 同时 令 我 痛心 的 就 是 Ruby 在 日 本 的 普及 也 不 例外 ， 还 
是 落后 于 海外 。 


Ruby 终于 在 商业 领域 也 有 了 用 武之 地 ， 这 让 我 感到 由 应 的 高 兴 ， 同 时 
也 在 考虑 如 何 更 好 地 灵活 应 用 它 。 


14.2.1 在 商业 中 利用 Ruby 
2002 年 在 华盛顿 州 的 西雅图 举行 了 Ruby Conference 2002， 在 这 个 会 议 
和 超级 程序 员 Andy Hunt 先生 介绍 了 在 工作 中 应 用 Ruby 的 4 个 阶 

1. 作为 兴趣 来 学 习 的 Ruby。 

2. 作为 个 人 工具 的 Ruby。 

3. 工作 中 作为 辅助 开发 工具 的 Ruby。 

4. 发 布 程序 的 Ruby。 


第 一 阶段 是 作为 兴趣 来 学 习 的 Ruby， 就 是 对 Ruby 有 所 关注 ， 开 始 学 习 
的 阶段 。 通 过 读书 、 运 行 例 子 程序 以 及 编写 小 程序 积累 点 经 验 ， 了 解 

















Ruby 这 门 语 言及 其 背后 的 设计 思想 ， 就 属于 这 个 阶段 。 当 然 不 管 是 谁 
都 是 从 这 里 开始 的 。 


第 二 阶段 是 作为 个 人 工具 的 Ruby， 是 指 在 日 常生 活 中 使 用 Ruby 作为 工 
具 的 阶段 。 比 如 ， 整 理 数码 相机 照片 的 小 程序 ;每 天 监视 日 志文 件 ， 发 
现 异 常 时 发 邮件 通知 的 程序 。 使 用 Ruby 的 话 ， 可 以 很 简单 地 编写 这 样 
PO 


第 三 阶段 是 工作 中 作为 辅助 开 及 工具 的 Ruby， 到 了 这 一 阶段 ， 虽 然 肥 
人 
工具 。 


几乎 所 有 的 软件 开发 应 用 都 是 团队 工作 ， 编 写 程序 的 开发 语言 几乎 都 是 
根据 领导 或 客户 的 意见 来 决定 的 。 在 这 种 情况 下 ， 选 择 C++、Java 或 者 
PHP 的 情况 就 会 比较 多 。 


但 是 ， 关 于 辅助 工具 的 开发 ， 大 都 可 以 由 开发 人 员 自 由 选择 。 测 试用 工 
有 具 、 文 档 生 成 工具 、 辅 助 构建 工具 、 统 计 工 具 以 及 这 次 要 讲解 的 代码 自 
动 生 成 工具 等 ， 都 是 有 代表 性 的 辅助 工具 。 

最 后 是 喜欢 Ruby 的 人 理想 的 最 高 阶段 ， 发 布 程序 的 Ruby 阶段 。 几 年 
前 除了 非常 有 限 的 环境 ， 这 还 是 像 是 说 梦话 ， 但 近来 随 着 Ruby 知名 上 度 
的 提高 ，Ruby on Rails 的 强劲 发 展 ， 从 2006 年 前 后 开始 ， 特 别 是 在 
Web 应 用 程序 领域 ， 这 已 经 不 再 是 珍 闻 了 。 


杀 爱 的 读者 朋友 ， 你 处 在 什么 阶段 呢 ? 可 能 大 多 数 都 还 处 在 第 一 或 者 第 
二 阶段 。 但 是 ， 形 势 在 急剧 发 展 变化 中 。 


14.2.2 ”使 用 Ruby 自 动 生 成 代码 


在 上 面 介绍 的 4 个 阶段 中 ， 本 厄 内 容 属 于 工作 中 作为 辅助 开发 工具 的 
Ruby 阶段 ， 具 体 讲解 代码 生成 《Code Generation ) 的 技巧 。 


代码 生成 就 是 字面 所 述 的 生成 程序 代码 的 意思 ， 也 就 是 说 ， 利 用 某 种 模 
板 编写 程序 ， 让 它 来 自动 生成 实际 的 应 用 程序 。 


对 于 像 Ruby 这 样 的 动态 语言 ， 代 码 生成 技术 并 没有 什么 很 大 的 效果 ， 






































这 样 的 语言 本 身 具 有 丰富 的 处 理 程序 的 元 编程 功能 ， 并 不 需要 依靠 代码 
生成 ， 就 可 以 实现 对 程序 本 吴 的 操作 。 


说 起 来 生成 程序 的 编程 ， 也 许 有 很 多 读者 朋友 会 感到 不 知 所 云 。 也 许 会 
有 人 认为 : 我 想象 不 出 在 Java 编程 中 有 什么 地 方 可 以 引入 代码 生成 。 


为 此 ， 让 我 们 首先 来 看 几 个 例子 ， 代 码 生成 在 其 中 发 挥 了 重要 作用 。 


大 家 在 编程 的 过 程 中 ， 应 该 会 感觉 到 有 时 候 总 是 在 重复 编写 相同 内 容 的 
代码 。 编 程 中 的 代码 重复 是 非常 恶劣 的 。 发 现 了 代码 重复 ， 就 应 该 考虑 
在 合理 的 代价 范围 内 避免 代码 重复 的 方法 。 


话 虽 然 是 这 样 说 ， 但 并 不 全 者 仅仅 是 抽出 共同 方法 这 种 简单 的 情况 。 像 
Java 这 样 的 语言 ， 因 为 没有 C 语言 的 宏 定义 功能 ， 有 些 代码 重复 的 情况 
实在 是 无 法 避免 的 。 


14.2.3 ”消除 重复 代码 


请 看 一 下 图 14-7， 这 是 用 C 来 编写 的 Ruby 源 代码 的 一 部 分 。 我 们 注意 
到 ， 先 是 有 一 个 定义 方法 的 函数 ， 然 后 在 相距 非常 远 的 地 方 ， 又 有 一 个 
登录 该 方法 的 例 程 。 像 这 样 的话 ， 仅 仅 定义 了 函数 ， 却 态 记 了 登录 ， 或 
者 反 过 来 ， 环 记 定义 函数 了 ， 这 都 不 是 什么 令 人 柯 怪 的 事情 。 不 单 是 有 
这 种 可 能 性 ， 在 实际 编程 中 ， 发 生 这 种 错误 的 现象 屡见不鲜 。 只 要 有 发 
生 错 误 的 可 能 性 ， 这 种 错误 残 一 定 会 及 生 ， 这 就 是 程序 员 。 


























static VALUE 
rb_str_ length(VALUE str) 


return LONG2NUM(RSTRING(str)->len); 
void 
Init String(void) 


rb_define method(rb cString, "length", rb_str length, 8); 


; 本 


| | 


图 14-7 Ruby 源 代 码 示例 


这 里 如 果 应 用 代码 生成 授 术 的 话 ， 仪 仅 给 定义 方法 的 函数 添加 些 附加 信 
恩 ， 就 会 自动 生成 初始 化 例 程 。 比 如 像 图 14-8 这 样 的 写法 。 








/* def String#length(8) */ 
static VALUE 
rb_str_ length(VALUE str) 


return LONG2NUM(RSTRING(str)->len); 























图 14-8 ”灵活 应 用 代码 生成 的 Ruby 源 代码 示例 


看 一 下 图 14-8， 我 们 会 明白 ， 仪 仪 是 增加 一 行 注释 语句 ， 函 数 的 登录 部 
分 束 可 以 完全 省 略 不 写 。 图 14-8 中 省 略 了 函数 Init_Sstring() ， 实 际 
上 代码 生成 工具 会 生成 与 之 相当 的 部 分 。 为 了 在 构建 程序 的 时 候 ， 目 动 
生成 省 略 部 分 ， 我 们 只 需要 定义 make 的 规则 ， 在 构建 程序 的 过 程 中 调 
用 代码 生成 工具 。 


在 对 象 语言 没有 元 编程 功能 ， 或 者 元 编程 功能 不 强 的 情况 下 ， 代 码 生成 
最 有 效果 。 具 体 而 言 ， 在 使 用 C、C++ 或 Java 等 语言 的 项 目 中 ， 代 码 生 
成 大 有 用 武之 地 。 


代码 生成 并 不 是 Ruby 所 特有 的 技术 。 实 际 上 ， 有 很 多 用 Java 来 生成 

Java 的 代码 生成 工具 。 比 如 ，O/R 映射 1 的 Hibernate 就 属于 这 样 的 自动 

生成 工具 ， 它 用 Java 自动 生成 数据 库 访问 类 的 代码 。 还 有 ，XDoclet 也 

是 自动 生成 工具 ， 我 们 只 要 给 实体 Bean 类 附加 一 些 JavaDoc 形式 的 注 

释 ，XDoclet 吏 会 读 取 这 些 信 息 ， 目 动 生成 EJB 框架 所 需要 的 大 量 文件 
(会 话 Bean、 无 状态 SessionBean 等 ) 。 


























1 O/R 映射 CObjecVRelational mapper) 是 自动 把 对 象 和 关系 型 数据 库 的 表格 对 应 起 来 的 软件 。 
14.2.4 ”代码 生成 的 应 用 


作为 本 节 内 容 的 参考 ， 我 推荐 全 面 讲解 代码 生成 的 书籍 Code Generation 
in Action 。 这 本 书 用 英文 介绍 了 代码 生成 在 各 种 领域 中 的 应 用 。 这 本 书 


ee Ruby 的 字样 ， 但 代码 生成 的 所 有 程序 都 是 用 Ruby 编写 





根据 Code Generation in Action ， 代 码 生 成 技术 的 应 用 有 如 下 几 个 方 
面 。 


数据 库 访 问 


从 数据 结构 定义 目 动 生成 数据 库 访 问 例 程 (包括 SQL) 。 比 如 在 使 用 
EJB 框 染 的 场合 ， 每 一 个 表 痢 需要 生成 好 几 个 文件 ， 总 的 文件 数 有 几 百 
甚至 上 千 个 ， 也 都 不 是 什么 稀奇 的 事 。 


手工 编写 大 量 的 文件 当然 不 是 了 胶 明 入 应 该 做 的 事 。 代 码 生 成 可 以 帮助 我 
们 解决 这 个 问题 。 


用 户 接口 


大 多 数 依赖 于 数据 库 的 Web 应 用 程序 ， 常 常 需要 对 表 的 各 项 目 进行 

CRUD 操作 。CRUD 是 Create 新建) 、Read ( 读 取 ) 、Update (更 

新 ) 和 Delete〈 删 除 ) 的 首 字母 缩写 。 在 极端 的 情况 下 ， 如 果 一 个 Web 

应 用 程序 有 10 个 表 ， 就 需要 编写 10x4 种 不 同 的 CRUD 画面 。 在 这 种 

人 自己 的 用 武之 地 。Ruby on Rails 最 初 也 使 用 了 同样 
J 代码 生成 。 


代码 生成 并 不 仅仅 适用 于 Web。Code Generation in Action 还 介绍 了 
Java 的 GUI 工具 箱 Swing 以 及 MEFC (Microsoft Foundation Classes) 的 
对 话 框 自动 生成 的 例子 。 


单元 测试 


代码 生成 对 单元 测试 也 很 有 效果 。 只 要 有 数据 和 测试 条 件 ， 就 可 以 开始 
单元 测试 ， 但 实际 上 开始 测试 时 ， 和 需要 编写 很 多 党 琐 的 代码 。 使 用 代码 
生成 技术 ， 雷 同 部 分 的 测试 代码 就 可 以 放手 目 动 生成 ， 而 集中 精力 搞 好 
测试 条 件 。 

对 于 使 用 数据 库 的 应 用 程序 ， 在 测试 之 前 准备 合适 的 测试 数据 也 是 一 件 


非常 麻 烦 的 事情 。 代 替 这 种 数据 库 Mock 对 象 代码 ， 从 正式 运行 环境 数 
据 库 提取 出 测试 用 数据 的 数据 装载 程序 ， 其 代码 也 都 是 代码 生成 的 对 
































象 。 

客户 界面 

在 需要 往 系统 里 追加 XMLRPC、SOAP 或 者 REST 等 API (应 用 程序 编 
程 接口 ) 的 场合 ， 接 受 API 请 求 的 入 口 部 分 (接受 请 求 ， 分 析 数 据 ， 调 
用 实际 处 理 ) 的 代码 都 是 固定 模式 。 这 里 也 有 应 用 代码 生成 的 余地 。 
文档 化 


0 
码 生成 。 


对 于 自动 生成 的 类 ， 由 人 工 记 入 文档 是 纯粹 的 浪费 ， 当 然 应 该 在 生成 代 
码 的 同时 也 自动 生成 文档 。 按 照 JavaDoc (Ruby 有 RDoc) 的 形式 ， 在 
生成 代码 的 程序 里 写 好 相应 的 文档 ， 应 该 是 个 聪明 的 方法 。 

14.2.5 ”代码 生成 的 效果 


代码 生成 对 负责 开发 的 工程 师 和 以 管理 为 主 的 经 理 都 大 有 神 益 。 对 工程 
师 而 言 ， 代 码 生 成 有 如 下 的 好 处 。 


。 改进 质量 。 

。 确保 一 致 性 。 

。 集中 知识 。 

。 增加 用 于 设计 的 时 间 。 

。 独立 于 程序 实现 的 设计 判断 。 
能 够 灵活 运用 代码 生成 技术 的 项 目 ， 也 都 是 事 出 有 因 的 。 比 如 ， 表 的 个 
数 很 多 ， 要 生成 大 量 雷 同 的 窗口 (页面 ) ， 这 就 会 带 来 大 量 的 重复 代 
码 ， 这 也 就 是 灵活 运用 代码 生成 的 条 件 。 


用 代码 生成 工具 来 统一 处 理 程序 代码 ， 就 可 以 避免 代码 的 分 散 ， 把 重复 
集中 到 一 个 地 方 ， 也 就 是 集中 到 对 工具 的 输入 ， 或 者 集中 到 工具 本 号 。 

















这 样 就 可 以 改进 质量 ， 确 保 大 量 雷 同 代 码 间 的 一 致 性 。 因 为 类 似 的 代码 
是 由 工具 一 下 子 生成 的 ， 发 生变 化 的 时 候 ， 要 修改 的 地 方 也 是 有 限 的 ， 
有 和 希望 提高 生产 率 和 可 维护 性 。 


进一步 讲 ， 要 开发 代码 生成 工具 的 话 ， 首 先 束 会 在 一 开始 的 时 候 ， 充 分 
研讨 什么 地 方 是 类 似 的 ， 什 么 地 方 是 不 同 的 ， 这 样 就 可 以 避免 坚 无 章法 
的 开发 。 因 为 有 了 这 样 的 抽象 化 要 求 ， 就 不 会 迁就 个 别 程序 实现 的 特殊 
要 求 ， 可 以 集中 于 软件 应 该 有 的 样子 而 进行 设计 。 


不 管 怎么 说 ， 合 适 地 运用 代码 生成 ， 束 更 有 可 能 专心 于 正确 的 设计 工 

作 ，Jack Herrington 先生 就 是 这 样 说 的 。 

另 一 方面 ， 负 责 管理 的 经 理 也 可 以 从 代码 生成 获得 如 下 的 好 处 。 

。 提高 成 本 预测 的 可 能 性 ， 简 化 管理 。 

。 提高 产品 质量 。 

。 维持 士气 。 

末 用 具有 一 致 性 的 框架 ， 不 仪 给 开发 人 员 融 来 容易 开发 和 维护 的 优点 ， 
经 理 也 可 以 从 中 获得 容易 预测 成 本 和 管理 开发 人 员 的 好 处 。 代 码 生 成 能 
够 实现 的 代码 高 质量 对 经 理 来 说 也 是 件 令 人 高 兴 的 事 。 项 目 具 有 能 够 更 
强 地 适应 变化 的 倾向 ， 也 就 更 有 可 能 进行 小 而 快 的 敏捷 开发 * 。 最 后 ， 


人 
，\ To 


2 敏捷 开发 是 具有 小 而 快 特征 的 软件 开发 方法 论 ， 相 对 于 过 程 与 工具 ， 这 种 开发 方法 更 着 重 于 
个 人 的 相互 作用 。 


但 是 ， 代 码 生成 并 不 是 什么 灵丹妙药 。 仅 仅 是 引入 代码 生成 并 不 能 解决 
项 目 所 有 的 问题 。 
如 果 不 充 分 分 析 要 开发 的 软件 本 质 ， 准 备 好 高 质量 的 代码 生成 器 ， 项 目 
就 很 难 取得 成 功 。 也 就 是 说， 为 了 从 项 目 中 获得 利 荔 ， 事 前 的 充分 准备 
是 十 分 重要 的 。 


14.2.6 ”编写 代码 生成 器 






















































































和 的 实例 之 前 ， 爷 来 讲解 一 下 能 用 于 编写 代码 生成 器 的 工 


AS 


对 代码 生成 最 有 帮助 的 工具 恐怕 要 数 eRuby 了 吧 。Ruby 本 身 也 拥有 优 
越 的 文本 处 理 功 能 ， 有 学 被 Code Generation in Action 选中 作为 开发 工 
具 的 语言 ， 是 适合 于 代码 生成 的 ， 然 而 使 用 eRuby 的 话 ， 在 以 比较 自然 
的 形式 编写 模板 的 同时 ， 还 可 以 灵活 运用 Ruby 的 处 理 能 


作为 Web 应 用 程序 的 模板 ， 好 像 使 用 eRuby 的 比较 多 。 但 是 ， 作 为 模 
板 系统 的 eRuby 本 喘 并 不 依赖 于 Web， 也 不 是 只 能 用 来 生成 HTML 。 
与 依赖 SGML 标签 的 Amrita 模板 系统 相 比 ， 这 是 其 显著 不 同 的 特点 。 


请 看 图 14-9， 这 是 eRuby 程序 的 例子 。 记 号 <% 和 %> 括 起 来 的 部 分 是 
Ruby 程序 。 记 号 外 面 是 照 原 样 输出 的 部 分 。 以 记号 <%= 开 始 的 Ruby 代 
码 会 把 代码 的 执行 结果 竺 入 到 输出 的 文本 里 。 

现在 时 间 是 <%= Time.now.to s %> 


<% 3.times do |i| %> 
<%= i %> 








<% end %> 








图 14-9 ”eRuby 程序 示例 <%%> 括 起 来 的 部 分 代表 Ruby 代码 


要 执行 图 14-9 的 程序 ， 需 要 启动 eRuby 的 处 理 程 序 3。 使 用 eruby 的 
场合 ， 要 执行 如 下 的 命令 。 


3 eRuby 是 文本 赎 入 型 语言 的 名 称 。eruby 与 erb 是 处 理 命令 的 名 称 。 简 单 而 言 ，eRuby 就 是 
允许 在 普通 文本 中 磐 入 Ruby 的 代码 片段 。 


$ eruby list3.erb 


erb 也 一 样 。 


$ erb list3.erb 







































































两 者 的 执行 结果 如 图 14-10 所 示 。 其 中 的 空 行 是 没有 输出 的 程序 部 分 消 
失 之 后 所 留 下 的 痕迹 。 作 为 代码 生成 对 象 的 编程 语言 大 都 不 对 空 行 作 任 
何 处 理 ， 这 些 部 分 也 就 可 以 忽略 。 


现在 时 间 是 Sat Jan 14 66:41:26 JST 2666 











图 14-10 图 14-9 程序 的 执行 结果 ， 髋 入 的 Ruby 代码 被 执行 


在 保存 图 14-9 中 的 文件 时 ， 使 用 了 .erb 的 扩展 名 ,但 实际 上 扩展 名 没有 
任何 实际 意义 。 


eruby 与 erb 都 是 处 理 程序 ， 基 本 上 是 互相 兼容 的 ， 只 有 如 下 3 点 不 


同 。 











1. eruby 是 用 C 编写 的 ，erb 则 是 用 纯 Ruby 编写 的 。 因 此 处 理 速度 
有 时 会 有 差异 。 


2. eruby 具有 对 应 CGI 的 文件 头 输出 功能 ， 而 erb 则 没有 这 样 的 功 


能 。 


3. erb 是 Ruby 的 库 ， 可 以 从 程序 中 简单 调用 ， 而 eruby 则 需要 用 命 
令 来 启动 别 的 过 程 。 


因为 最 后 一 个 特征 ， 使 得 erb 更 适合 于 代码 生成 。eruby 是 独立 的 程 
序 ， 在 Ruby 之 外 需要 单独 安装 4 ， 而 erb 则 是 Ruby 的 标准 库 ， 这 一 点 也 
是 很 有 帮助 的 。 


4 eruby 是 与 mod_ruby 一 起 开发 出 来 的 ，mod_ruby 中 包含 了 eruby 的 功能 。 


从 程序 中 使 用 erb 的 时 候 ， 程 序 代 码 如 图 14-11 所 示 。 


require 'erb' 
template = ERB.new <<-EOF 





现在 时 间 是 <%= Time.now.to s %> 
<% 3.times do |i| %> 
<%= i %> 


puts template.result 








图 14-11 使 用 erb 库 的 例子 





首先 ， 以 模板 的 字符 串 为 参数 ， 生 成 ERB 类 的 对 象 。 然 后 ， 调 用 该 对 象 
的 result 方法 来 执行 代码 生成 程序 。 如 果 想 要 在 模板 中 访问 局 部 变量 
的 话 ， 就 需要 在 调用 result 方法 的 时 候 ， 传 递 给 它 保 存 有 局 部 变量 状 
态 的 Binding 对 象 。 调 用 binding 方法 可 以 得 到 Binding 对 象 。 


14.2.7 也 可 以 使 用 XML 


如 果 利 用 代码 生成 工具 的 开发 团队 的 所 有 开发 成 员 都 对 Ruby 抱 有 好 感 
的 话 ，Ruby 本 身 就 可 以 作为 一 种 DSL? ， 用 来 为 程序 生成 器 生成 输入 。 
如 果 情 况 允 许 的 话 ， 这 是 最 简单 的 啦 。Ruby 解释 器 本 里 会 对 输入 进行 
解析 ， 就 用 不 着 男 外 编写 解 术 例 程 ， 也 不 需要 进行 加 工 。 习 惯 之 后 ， 可 
以 完全 抛 痉 烦琐 的 配置 文件 ， 非 党 简单 地 编写 出 代码 生成 器 。 


5DSL (Domain Specific Language) 是 指针 对 特定 领域 而 强化 功能 的 小 规模 编程 语言 ， 在 第 8 章 
有 讲解 。 


但 是 ， 开 发 团队 中 其 他 开发 人 员 ， 经 理 或 者 客户 可 能 会 这 样 说 : “选择 
用 Ruby 作为 开发 工具 当然 是 你 的 目 由 ， 但 总 不 能 强迫 其 他 开发 人 员 来 
都 来 用 Ruby 吧 。” 这 种 场合 ， 最 有 效 的 解决 方法 就 是 :“ 那 么 ， 用 XML 
来 作为 输入 吧 。” 


虽然 不 清楚 详细 原因 ， 但 是 好 像 有 某 种 法 则 ， 很 多 经 理 大 都 能 接受 “要 
征 XML 的 话 ， 那 就 可 以 吧 ”， 这 是 很 方便 的 事 。 我 们 的 目的 并 不 是 要 让 
经 理 也 喜欢 起 Ruby 来， 而 古 为 了 使 用 代码 生成 来 提高 工作 效率 ， 所 以 
在 XML 这 一 点 上 妥协 也 是 应 该 的 。 


幸运 的 是 ，Ruby 拥有 解释 XML 的 标准 库 REXML。REXML 提供 操作 
XML 的 功能 ， 这 里 让 我 们 来 看 一 下 读 取 简单 的 XML 文件 ， 表 示 其 内 容 
的 例子 。 图 14-12 是 把 配置 文件 设计 成 XML 文件 的 例子 。 使 用 
























































REXML， 用 图 14-13 中 Ruby 程序 读 取 配置 文件 ， 配 置信 息 表 示 成 
Python 风格 (参见 图 14-14) 。 


<beans> 

<bean name="Employee"> 

<attributes name="name" type="String"/> 
<attributes name="id" type="int"/> 
<attributes name="age" type="int"/> 
<attributes name="section" type="String"/> 
</bean> 


<bean name="Section"> 

<attributes name="name" type="String"/> 
<attributes name="id" type= "int"/> 
</bean> 

</beans> 





图 14-12 ”作为 配置 文件 的 XML 文件 示例 








require “rexml/document 


doc = REXML: :Document.new(File.open("conf.xml")) 
doc.root.each element("bean"){|elem| 
printf "class %s:\n", elem.attributes["name" 
elem.each element ("attributes") {|attr| 
printf " %s:%s\n", attr.attributes["name"], attr.attributes["type"] 
} 
} 





图 14-13 ”使 用 REXML 的 Ruby 程序 ， 读 取 图 14-12 的 XML 文件 


class Employee: 
name:String 
id:int 

age:int 
section:String 


class Section: 
name:String 
id:int 





图 14-14 图 14-12 与 图 14-13 程序 的 输出 结果 
14.2.8 ”在 EJB 中 使 用 代码 生成 


让 我 们 使 用 以 上 的 工具 来 生成 EJB 的 EntityBean 〈 样 ) 的 源 代 人 码 吧 。 输 
入 与 图 14-12 的 XML 文件 完全 一 样 。 请 看 sample.mb〈 人 参见 图 14- 

15) ， 这 是 EntityBean 样 Java 源 代码 的 生成 工具 。 因 为 是 例子 ， 生 成 
的 EntityBean 实际 上 是 无 法 使 用 的 ， 但 读 了 程序 大 致 可 以 明白 这 个 过 


程 。 











require 'erb' 
require 'rexml/document'" 


doc = REXML: :Document.new(File.open("/tmp/conf.xml")) 
template = ERB.new <<-END 

A 

* The Entity bean for <%= name %> 

* Qejb:bean name="<%= name %>" 


display-name="<%= name %>" 

米 jndi-name= "ejb/<%= name %>" 

* local-jndi-name="ejb/<%= name %>Local" 
tyh 


public abstract class <%= name %>Bean implements EntityBean { 
<% elem.each element("attributes") {|attr| 


aname = attr.attributes["name"].capitalize 
atype = attr.attributes["type" ]%> 

/水 

* Qejb:persistent-field 

* Qejb:interface-method view-type="both" 

**/ 

public abstract <%= atype %> get<%= aname %>(); 
/** 

* Qejb:interface-method view-type="both" 

yh 


public abstract void set<%= aname %>(<%= atype %> <%= aname.downcase 


<% } %> 
} 


END 
doc.root.each element("bean") {|elem| 
name = elem.attributes["name" |].capitalize 
open("#{name}Bean.java", "w") {|out| 
out.puts template.result(binding) 


| 


图 14-15 ”Bean 生成 程序 


执行 这 个 程序 之 后 ， 当 前 目录 中 会 生成 各 个 Bean 的 源 代 码 文 件 。 输 入 
文件 conf.xml 仅 有 12 行 ， 生 成 的 Java 文件 长 达 80 行 。 


看 了 程序 我 们 知道 ， 程 序 中 定义 了 EJB 所 需要 的 繁杂 的 Getter 和 
Setter， 它 们 的 定义 包括 JavaDoc 注释 。 最 近 像 Eclipse 这 样 的 开发 环 
境 ， 具 有 插入 类 似 的 固定 模式 代码 的 功能 ， 但 我 感觉 ， 考 虑 到 针对 个 别 
项 目的 定制 容易 性 与 应 用 范围 ， 代 码 生 成 共有 更 大 的 可 能 性 。 


已经 好 和 久 没 有 接触 Java 程序 了 ， 这 次 为 了 写 这 本 书 ， 又 读 了 些 Java 程 
序 ， 和 我 平常 使 用 的 Ruby 相 比 ， 实 在 是 十 分 见 繁 。 当 然 Java 有 Java 
的 优点 ， 但 要 写 的 长 读 的 多 ， 确 实 是 件 不 容易 的 事 。Java 阵营 的 人 也 理 
解 这 一 点 ， 所 以 开发 了 像 Eclipse 这 样 的 开发 环境 ， 像 XDoclet 这 样 的 
代码 生成 等 辅助 工具 ， 利 用 它们 来 提高 生产 效率 。 


























14.3 内存 管理 与 垃圾 收集 


垃圾 收集 (Garbage Collection，GC) 是 一 种 管理 程序 使 用 的 内 存 区 域 的 
方法 。 使 用 具有 垃圾 收集 功能 的 编程 语言 或 处 理 程序 的 话 ， 程 序 中 不 和 需 
3 内 存 管理 的 代码 ， 也 就 是 说 不 用 编写 代码 来 释放 使 用 过 的 内 存 区 


14.3.1 内存 管理 的 困难 


在 垃圾 收集 普及 之 前 ， 内 存 区 域 的 取得 和 释放 完全 是 程序 员 的 贡 任 。 即 
使 是 现在 ，C 或 者 C++ 这 些 编程 语言 也 还 是 没有 垃圾 收集 功能 。 


随 着 程序 的 执行 ， 会 使 用 一 些 内 存 区 域 作为 作业 区 。 为 记忆 对 象 、 字 符 
昨 和 数组 等 个 别 信息 ， 都 需要 使 用 内 存 区 域 。 没 有 垃圾 收集 的 语言 一 般 
都 提供 有 API， 利 用 这 些 API， 可 以 在 需要 时 问 操 作 系 统 申 请 并 取得 内 
存 ， 使 用 过 之 后 再 把 内 存 区 域 返 回 给 操作 系统 。 


C 语言 从 操作 系统 取得 内 存 的 函数 是 malloc() ， 释 放 内 存 的 函数 是 
free() 。malloc() 和 free() 的 使 用 方法 见 图 14-16。 


/* 使 用 时 要 包含 stdlib.h include */ 
#include <stdlib.h> 



































/* 申请 1624 字 节 的 内 存 区 域 */ 
char *p = malloc(1024) ; 
if (p == NULL) { 

/* 发 生 错误 时 返回 NULL */ 
































/* 使 用 完 之 后 free () */ 
free(p); 





























图 14-16 C 语言 中 malloc() 和 free() 的 使 用 方法 ， 程 序 必须 明确 调用 free() 
在 C++ 中 ， 为 对 象 申 请 内 存 区 域 时 使 用 new 运算 符 来 代 蔡 malloc() ， 


释放 内 存 领 域 时 使 用 delete 运算 符 来 代 蔡 free() (参见 图 14-17) 。 
与 使 用 库 函 数 来 实现 内 存 区 域 管理 的 C 语言 相 比 ， 面 向 对 象 的 C++ 语 





言 把 对 象 管理 融合 到 了 语言 本 身 。 


class Foo { 


eo 
// 使 用 new 运算 符 来 申请 内 存 


Foo *p = new Foo(); 


// 错 误 时 会 发 生 异 常 ， 所 以 不 需要 检查 返回 值 





























// 使 用 完 之 后 delete 
delete p; 























图 14-17 ”C++ 语言 中 new 和 delete 的 使 用 方法 ， 与 图 14-16 相 比 ， 取 得 内 存 区 域 时 的 错误 处 理 
变 得 简单 了 























像 这 种 “手工 ”管理 内 存 的 方法 ， 很 容易 发 生 各 种 问题 。 
悬挂 指针 


如 果 把 还 在 使 用 中 的 内 存 区 域 错误 地 调用 free() 予以 释放 的 话 ， 就 会 
发 生 悬 挂 指针 〈dangling pointer〉 的 现象 。 在 此 之 后 ， 错 误 释 放 了 的 内 
存 区 域 可 能 被 程序 用 于 别 的 目的 ， 或 者 返还 给 操作 系统 。 不 管 是 哪 种 情 
况 ， 它 都 会 脱离 程序 管理 ， 变 成 预想 之 外 的 状态 。 


这 样 ， 程 序 再 去 访问 该 区 域 的 时 候 就 会 出 错 。 在 引用 该 区 域内 容 的 时 

候 ， 多 数 场合 会 读 取 到 被 破坏 的 数据 ， 或 者 是 在 更 新 该 领域 数据 的 时 

候 ， 会 置换 成 预想 之 外 的 数据 。 

内 存 泄漏 

男 一 方面 ， 如 果 忘 记 了 把 申请 的 内 存 区 域 返 还 给 操作 系统 的 话 ， 束 会 发 

生 内 存 泄漏 (memory leak) 。 这 时 候 因 为 使 用 过 的 内 存 区 域 越 积 越 

多 ,程序 占有 的 内 存 就 会 逐渐 增加 。 特 别 是 长 时 间 启 动 ， 连 续 提 供 服务 

1 (daemon) ， 容 易 发 生 内 存 泄漏 ， 导 致 系统 停止 等 重 
问题 。 


二 重 释放 
对 已 经 释放 过 的 内 存 区 域 再 次 调用 free( ) 的 情况 也 时 有 发 生 。 这 称 为 











二 重 释 放 (double free) 。 这 会 带 来 malloc() 和 free() 内 部 使 用 的 数 
据 区 域 不 一 致 的 问题 。 


想 要 完全 避免 这 些 问题 是 非常 困难 的 。 特 别 是 在 面向 对 象 的 编程 中 ， 不 
仅 存 在 大 量 对 象 数据 ， 而 且 对 象 变 得 不 需要 的 时 刻 也 不 明确 。 还 有 令 人 
2 这 些 问 题 大 都 在 犯错 误 的 时 候 没 有 任何 征兆 ， 而 在 之 后 才 会 
暴露 出 来 。 


内 存 汇 漏 问题 只 有 在 内 存 占用 量 超 出 预想 的 时 候 才 会 显露 ， 而 悬挂 指针 
问题 不 会 发 生 在 释放 使 用 内 存 的 时 刻 ， 而 是 要 到 访问 释放 过 的 内 存 区 域 
时 才 会 出 现 。 程 序 员 往往 会 在 看 起 来 完全 没有 问题 的 地 方 突然 遭遇 意 想 
不 到 的 错误 。 


为 检查 出 C 或 C++ 的 内 存 问 题 ，valgrind (http://valgrind.org/ ) 或 者 
electricfence (http://perens.com/FreeSoftware/ElectricFence/ ) 这 样 的 内 存 
分 析 器 专用 工具 会 起 到 很 好 的 作用 。 使 用 这 些 工 具 ， 可 以 检查 出 以 下 问 
题 。 

。 试图 对 申请 的 内 存 区 域 之 外 的 部 分 进行 访问 。 

。 已 经 释放 过 的 区 域 发 生 二 重 释 放 。 

。 内 存 汇 漏 。 


这 些 工 具 可 以 肥 现 出 问题 的 内 存 区 域 是 在 程序 的 什么 地 方 申请 的 。 但 
因为 内 存 问题 的 特殊 性 质 ， 仅 靠 这 些 信息 是 很 难 发 现 所 有 程序 错误 
有 

















14.3.2 ”垃圾 收集 亮相 之 前 


应 该 管 理 的 内 存 区 域 越 来 越 多 ， 内 存 释 放 时 刻 的 管理 也 就 越 来 越 难 ， 这 
ee 本 来 像 这 种 大 量 对 象 的 管理 业务 就 不 是 人 《【 程 
子 员 ) 所 能 做 的 。 


人 管理 不 过 来 的 话 ， 就 应 该 放手 让 计算 机 来 做 。 垃 圾 收集 就 是 在 这 样 的 
背景 下 诞生 的 。 令 人 意外 的 是 ， 其 实 垃圾 收集 早 在 1960 年 就 哑 啤 险 地 
了 ， 从 现在 说 已 经 是 50 年 前 的 事情 了 。 当 时 编程 语言 Lisp 也 才刚 刚 诞 
生 ，Const 单元 ! 要 生成 大 量 对 象 ， 由 人 工 来 明确 管理 是 不 可 能 的 事 


情 。 垃 圾 收集 就 是 为 解决 这 一 问题 而 诞生 的 。 
1 Lisp 的 基本 数据 结构 ， 是 构成 列表 的 节点 。 


从 那 以 后 ， 在 Lisp 与 受到 其 影响 的 语言 中 ， 垃 圾 收集 成 为 常识 。 但 
是 ，FORTRAN、COBOL、C 与 C++ 这 些 得 到 广泛 使 用 的 语言 都 没有 利 
用 垃圾 收集 。 这 是 因为 天 于 垃圾 收集 ， 有 以 下 这 些 先 入 为 主 的 观念 。 


垃圾 收集 慢 


认为 垃圾 收集 慢 的 观念 只 有 一 半 是 对 的 。 计 算 机 不 可 能 完全 理解 人 的 意 
图 。 茶 内 存 区 域 是 否 不 再 使 用 ， 计 算 机 不 可 能 完全 正确 地 判断 出 来 。 本 
来 就 是 因为 人 不 能 判断 才 会 及 生 内 存 问 题 的 ， 跟 计算 机 说 “把 所 有 不 再 
使 用 的 内 存 都 找 出 来 "也 属于 无 理 要 求 。 


这 样 的 话 ， 就 只 能 使 用 一 些 别 的 方法 来 找 出 不 再 使 用 的 内 存 。 比 起 人 工 
直接 管理 内 存 区 域 的 寿命 ， 在 不 要 的 时 刻 再 明确 释放 ， 这 需要 做 些 多 余 
的 工作 ， 所 以 人 们 都 认为 执行 时 间 会 变 长 。 但 是 即使 是 在 人 工 明 确 释 放 
内 存 区 域 的 场合 ， 内 存 管理 也 还 是 需要 一 定 开 销 的 。 有 研究 表明 ， 在 茶 
些 条 件 下 ， 垃 圾 收集 比 手工 管理 内 存 还 更 快 *。 


2 Andrew W. Appel, “Garbage Collection can be Faster than Stack Allocation”, Information Processing 
Letters,vol.25, no.4, 1987。 


垃圾 收集 可 徘 性 低 


垃圾 收集 可 靠 性 低 的 观念 可 能 是 由 于 个 别 垃 圾 收集 处 理 程序 的 质量 不 高 
而 形成 的 。 如 果 垃 圾 收集 本 喘 有 程序 错误 的 话 ， 这 些 错误 就 可 能 导致 前 
面 列举 的 各 种 内 存 问 题 。 实 际 上 ， 我 在 Ruby 的 垃圾 收集 中 也 有 几 次 因 
为 程序 错误 ， 而 给 大 家 带 来 了 很 多 麻烦 。 


但 是 想 一 想 的 话 ， 不 使 用 垃圾 收集 的 时 候 ， 也 会 经 常 发 生 内 存 问题 ， 程 
序 本 号 的 可 徘 性 随 之 降低 ， 性 能 也 就 无 从 谈 起 。 结 果 常 常 是 程序 员 在 无 
可 友 何 的 情况 下 ， 只 好 自己 想 点 办 法 来 实现 类 似 于 垃圾 收集 的 功能 。 与 
其 每 次 独自 实现 垃圾 收集 ， 真 不 如 利用 已 实现 好 的 垃圾 收集 ， 这 样 才 可 
以 最 终 得 到 最 大 的 好 处 。 


Java 语言 的 存在 打破 了 这 两 个 偏见 。1995 年 登场 的 Java 从 一 开始 就 具 
备 垃圾 收集 功能 ， 以 后 又 经 过 持续 不 断 的 性 能 改善 ， 扭 转 了 垃圾 收集 慢 












































得 不 能 使 用 的 偏见 。 


在 Java 之 后 诞生 的 编程 序言 ， 不 管 是 否 受到 Lisp 的 影响 ， 几 乎 都 坚 无 
例外 地 拥有 垃圾 收集 功能 。 垃 圾 收集 从 诞生 之 日 起 ， 经 过 了 40 多 年 的 
发 展 ， 终 于 成 为 大 家 认可 的 一 项 特性 了 。 


14.3.3 评价 垃圾 收集 的 两 个 指标 


假如 存在 备 有 无 限 内 存 的 计算 机 的 话 ， 垃 圾 收集 是 没有 必要 的 。 现 实 中 
内 存 容 量 是 有 限 的 ， 为 了 最 大 限度 地 利用 有 限 的 内 存 ， 就 需要 有 垃圾 收 
集 。 话 虽然 这 么 说 ， 那 毕 况 只 是 受 计算 机 资源 的 制约 ， 这 一 点 是 不 能 坊 
记 的 。 垃 圾 收集 所 进行 的 基本 上 都 是 用 户 看 不 到 的 处 理 ， 不 能 因为 垃圾 
收集 而 过 分 影响 处 理性 能 。 


从 这 一 点 出 发 ， 在 评价 垃圾 收集 算法 的 时 候 ， 一 个 重要 指标 就 是 尽量 不 
要 给 用 户 带 来 影响 ， 不 要 让 用 户 等 待 。 但 是 ， 没 有 任何 算法 能 满足 所 有 
人 的 要 求 ， 我 们 可 以 根据 程序 的 性 质 来 选择 合适 的 垃圾 收集 算法 。 
垃圾 收集 的 性 能 可 以 由 以 下 两 个 指标 来 测定 。 

否 吐 量 

否 吐 量 (throughput〉 是 垃圾 收集 处 理 在 程序 全 部 执行 时 间 中 所 占 的 比 
例 。 当 然 ， 垃 圾 收集 处 理 所 占 的 比例 越 小 越 好 ， 垃 圾 收集 处 理 所 占 的 比 
例 大 的 话 《〈 换 个 说 法 就 是 吞吐 量 小 ) ， 程 序 整 体 的 性 能 束 会 低下 。 
暂停 时 间 

暂停 时 间 〈pausetime) 是 一 次 垃圾 收集 处 理 所 中 断 的 时 间 。 和 暂停 时 间 
过 长 的 话 ， 处 理 的 中 断 时 间 残 会 变 得 很 显眼 ， 程 序 的 反应 就 会 变 慢 。 比 
如 在 射击 游戏 中 ， 如 果 因 为 垃圾 收集 的 处 理 而 导致 游戏 机 无 法 操作 ， 并 
因此 导致 游戏 结束 的 话 ， 当 然 束 会 激怒 玩 游戏 的 人 了 。 

垃圾 收集 每 次 所 花 的 时 间 会 因 垃 圾 收集 执行 时 对 象 的 总 数 而 变化 ， 暂 停 
时 间 的 指标 有 两 种 ， 一 是 把 垃圾 收集 时 间 求 平均 值 所 得 到 的 平均 暂停 时 
间 ， 二 是 程序 执行 中 最 长 的 垃圾 收集 时 间 所 代表 的 最 大 暂停 时 间 。 


那些 实时 性 要 求 高 的 程序 ， 惑 很 重视 最 大 和 暂停 时 间 。 



































厨 吐 量 和 和 暂停 时 间 这 两 个 指标 都 好 的 话 当然 比较 理想 ， 但 往往 很 难 达 
到 。 像 批 处 理 这 样 非 对 话 的 处 理 强调 吞吐 量 要 高 ， 而 重视 反应 速度 的 蔡 
入 式 控制 或 者 GUI 程序 就 强调 暂停 时 间 要 短 。 


Java 运行 环境 中 实现 有 多 种 垃圾 收集 算法 ， 可 以 根据 程序 的 性 质 来 切换 
合适 的 垃圾 收集 算法 。 


14.3.4 垃圾 收集 算法 
垃圾 收集 算法 基本 上 是 如 下 4 类 ， 还 有 几 种 变形 。 
。 引用 计数 方式 。 

。 标记 和 扫除 方式 。 

。 标记 和 紧缩 方式 。 

。 复制 方式 。 

14.3.5 ”引用 计数 方式 


引用 计数 方式 在 垃圾 收集 算法 中 共有 最 简单 最 容易 实现 的 特征 。 与 下 面 
要 介绍 的 标记 和 扫除 方式 并 列 ， 郑 是 在 早期 〈1960 年 ) 发 明 的 。 


以 下 是 它 的 基本 原理 。 


首先 ， 各 对 象 知道 自己 被 从 几 个 地 方 引 用 着 (被 引用 数 、 引 用 计数 
器 ) 。 然 后 ， 在 引用 增 减 的 同时 也 相应 地 改变 被 引用 数 。 引 用 计数 器 变 
成 0 的 对 象 ， 也 就 明确 地 表明 它 不 再 被 其 他 对 象 所 引用 ， 可 以 释放 它 所 
占用 的 内 存 区 域 (参见 图 14-18) 。 
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图 14-18 ”引用 计数 方式 的 原理 ， 各 对 象 内 茂 有 被 引用 计数 器 ， 计 数 器 变 成 0 的 对 象 将 被 释放 








分 析 一 个 对 象 将 来 是 否 还 会 被 用 到 ， 理 解 程序 的 意图 来 执行 垃圾 收集 是 
不 可 能 的 事情 。 但 是 ， 如 果 一 个 对 象 不 再 被 其 他 对 象 所 引用 ， 今 后 就 确 
0 
对 家 。 


引用 计数 方式 的 最 大 优点 就 是 容易 实现 。 这 种 方式 得 到 广泛 的 使 用 ， 
0 
数 估 方式 。 


进一步 讲 ， 它 最 大 的 好 处 在 于 当 引 用 数 变 成 0 的 同时 对 象 也 束 随 之 释 

放 。 在 其 他 的 垃圾 收集 方式 中 ， 当 引用 数 变 成 0 之后， 对 象 什么 时 候 被 
释放 ， 都 还 是 一 个 未 知 数 ， 而 引用 计数 需 方 式 可 以 同时 进行 释放 处 理 。 
暂停 时 间 短 也 是 它 的 优点。 


男 一 方面 ， 它 有 3 个 缺点 。 最 大 的 缺点 是 它 不 能 释放 有 循环 引用 关系 的 
对 象 群 。 图 14-19 中 的 对 象 a、b、c 不 再 被 外 面 其 他 对 象 所 引用 ， 但 因 
ee 
被 释放 。 
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图 14-19 2 


因为 有 循环 引用 ， 引 用 计数 器 不 会 变 为 0， 会 
存 泄漏 














引用 计数 绅 方 式 也 有 其 与 生 俱 来 的 缺 上 。 因 为 在 引用 增 减 的 时 候 有 必要 
同时 正确 维护 引用 计数 句 的 增 减 ， 生 了 这 一 点 就 会 市 来 悬挂 指针 或 内 存 
泄漏 问题 。 在 语言 处 理 系统 本 身 管理 引用 计数 器 的 场合 ， 还 不 太 容 易 出 
全 
温床 。 

最 后 1 个 缺点 是 ， 引 用 计数 器 的 管理 与 并 行 处 理 不 相 容 。 如 果 多 个 进程 


同时 增 减 一 个 引用 计数 如 的 话 ， 束 会 及 生 引 用 计数 禹 的 值 不 一 致 的 现象 
《从 而 成 为 内 存 故 障 的 原因 ) 。 为 避免 这 一 问题 ， 需 要 在 操作 引用 计数 





需 的 时 候 进行 排他 处 理 ， 但 在 频繁 有 发生 引 用 操作 的 同时 进行 排他 处 理 的 
话 ， 会 带 来 巨大 的 (时 间 ) 开销 。 


总 之 ， 这 种 原理 简单 实现 也 简单 的 引用 计数 露 方式， 缺点 很 多 ， 最 近 已 
经 不 怎么 用 了 。 


现在 ， 采 用 引用 计数 需 方 式 的 主要 语言 处 理 系 统 有 Perl 和 Python。 为 了 
回避 循环 引用 问题 ， 它 们 都 组 合 了 其 他 垃圾 收集 方式 。 这 些 语言 基本 上 
以 引用 计数 器 方式 来 进行 垃圾 收集 ， 只 有 在 极 个 别 的 情况 下 ， 才 通过 别 
的 垃圾 收集 算法 来 处 理 引 用 计数 器 不 能 回收 的 对 象 。 

















14.3.6 ”标记 和 扫除 方式 


标记 和 扫除 方式 是 和 引用 计数 器 方式 同样 古老 的 垃圾 收集 算法 ， 相 关 论 
文 都 同样 发 表 于 1960 年 。 
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图 14-20 标记 和 扫除 方式 的 原理 。 (a〉 从 根 开始 按 顺序 给 所 有 被 引用 的 对 象 加 上 标记 
CM) ; (b) 没有 标记 的 对 象 被 释放 









































标记 和 扫除 方式 从 有 可 能 成 为 对 象 引 用 元 的 变数 〈 根 ) 开始 ， 给 被 引用 
的 对 象 加 上 标记 ， 表 明 它 “活着 ”。 这 种 方式 然后 再 给 标记 对 象 所 引用 的 
对 象 ， 还 有 其 再 引用 的 对 象 ， 也 都 递归 地 加 上 引用 标记 《参见 图 14- 
20a) 。 


这 样 从 根 开始 不 管 是 直接 还 是 间接 ， 只 要 把 所 有 引用 的 对 象 都 加 上 标记 
的 话 ， 那 没有 标记 的 对 象 就 是 没有 被 引用 的 ， 也 就 是 “已 经 死 了 ”。 


然后 ， 在 所 有 的 对 象 中 找 出 没有 标记 的 对 象 ， 把 它们 作为 垃圾 扫除 出 去 
(参见 图 14-20b) 。 


这 种 标记 和 扫除 方式 虽然 很 古老 ， 但 确实 非常 优秀 ， 现 在 也 还 航 多 种 处 




















理 系 统 所 采用 。 


但 它 也 有 缺点 。 当 对 象 数目 较 多 的 时 候 ， 人 性 能 容易 恶化 。 在 标记 的 时 候 
《标记 阶段 ) 要 访问 生存 着 的 所 有 对 象 ， 在 回收 成 为 垃圾 的 对 象 时 【〈 扫 
除 阶段 ，， 按 顺序 访问 所 有 的 对 象 ， 找 出 其 中 “已经 死 了 ”的 对 象 。 在 寻 
找 垃圾 和 扫除 的 过 程 中 ， 基 本 上 不 能 进行 其 他 处 理 ， 垃 圾 收集 时 间 长 的 
话 ， 会 影响 到 本 来 的 处 理工 作 。 


采用 标记 和 扫除 方式 的 语言 有 很 多 。 我 最 熟悉 的 Ruby 就 是 个 代表 性 的 
例子 。 除 了 当 对 象 数 目 多 的 时 候 有 时 会 有 问题 外 ， 大 都 执行 得 很 好 。 














14.3.7 标记 和 紧缩 方式 


标记 和 紧缩 方式 是 标记 和 扫除 方式 的 变形 。 标 记 处 理 是 一 样 的 ， 后 阶段 
有 所 不 同 。 


标记 和 扫除 方式 按 顺 序 检查 所 有 的 对 象 来 进行 扫除 ， 标 记 和 紧缩 方式 移 
动 生存 中 的 对 象 位 置 来 腾 出 空间 (参见 图 14-21) 。 


DD 


图 14-21 标记 和 紧缩 方式 的 原理 。 (a) 对 象 的 顺序 虽然 有 所 不 同 ， 标 记 处 理 与 图 14-20 是 一 
样 的 ，(b) 移动 生存 中 的 对 象 ， 腾 出 空间 



























































标记 和 紧缩 方式 最 大 的 特征 ， 也 是 它 的 优越 之 处 ， 是 把 空间 集中 起 来 
紧缩 )。 紧 缩 的 结果 是 把 没有 释放 而 活 下 来 的 对 象 都 集中 到 了 一 个 地 
方 。 这 样 ， 内 存 访问 吉 集 中 到 一 个 局 部 区 域 ， 这 可 以 提高 缓存 功能 的 效 
率 。 对 象 的 分 配 也 只 是 把 指针 移动 一 下 就 完成 了 了， 降低 了 对 象 分 配 的 开 
销 ， 这 也 是 它 的 好 处 。 


这 种 方式 的 缺点 是 ， 把 生存 着 的 对 象 全 部 复制 的 紧缩 开销 ， 容 易 比 标记 
和 扫除 方式 中 执行 扫除 的 开销 还 要 大 。 还 因为 对 象 被 移动 位 置 了 ， 不 能 


应 用 下 文 讲述 的 保守 垃圾 收集 ， 这 也 是 它 的 一 个 缺点 。 


一 部 分 Lisp 处 理 系统 采用 的 是 标记 和 紧缩 方式 ，Java 处 理 系统 《作为 
多 个 垃圾 收集 算法 中 的 一 个 ) 也 实现 有 标记 和 紧缩 方式 。 


14.3.8 ”复制 方式 


像 标 记 和 扫除 方式 、 标 记 和 紧缩 方式 这 样 “ 标 记 之 后 释放 死 了 的 对 象 ” 的 
算法 ， 标 记 时 间 与 活着 的 对 象 数 成 比例 ， 扫 除 (或 者 紧缩 ) 时 间 与 总 对 
象 数 成 比例 。 因 此 ， 在 分 配 有 非常 多 的 对 象 ， 其 中 几乎 所 有 对 象 都 要 被 
释放 的 场合 ， 扫 除 的 开销 会 变 高 ， 在 性 能 方面 很 不 利 。 与 标记 时 间 一 

样 ， 要 是 能 够 有 一 种 算法 ， 只 需要 与 生存 着 的 对 象 成 比例 的 开销 就 可 以 
回收 内 存 区 域 的 话 ， 岂 不 是 很 好 吗 ? 


基于 这 种 想法 的 算法 是 复制 方式 。 复 制 方式 与 标记 和 扫除 方式 一 样 ， 从 
根 开始 扫描 所 有 的 对 象 ， 但 它 不 仅仅 是 加 标记 ， 还 执行 复制 “参见 图 
14-22) 。 
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图 14-22 复制 方式 的 原理 。 (a) 在 旧 空 间 里 分 配对 象 ，(b) 旧 空间 填 满 的 时 候 ， 从 根 开始 


复制 方 和 人 zs 间 分 成 旧 空 间 和 新 空间 两 大 块 ， 总 是 在 旧 空 间 中 分 配 
对 象 。 旧 空间 爆满 的 时 候 ， 从 根 开始 扫 摘 对 象 ， 把 对 象 复 制 到 新 空间 。 
这 时 ”复制 后 的 引用 也 要 前 之 更 新 


















































递归 地 执行 从 旧 空 间 到 新 空间 的 复制 ， 络 束 的 时 候 就 会 把 所 有 活 痢 的 对 
过 都 移动 到 新 空 sx 间 。 不 再 被 引用 的 对 象 都 遗留 在 旧 空 间 ， 旧 空间 就 可 以 
整个 地 莽 之 不 用 ， 也 就 避免 了 扫除 的 开销 。 从 这 之 后 再 把 新 空间 作为 这 
次 的 旧 空 间 来 继续 同样 的 处 理 。 


复制 方式 最 大 的 优点 是 ， 垃 圾 收集 开销 只 与 活着 的 对 象 数 成 比 列 。 与 标 
记 和 紧缩 方式 一 样 ， 对 象 的 分 配 开销 低 也 是 它 的 优点 。 


它 还 有 “局 部 性 ”的 优点 。 复 制 方式 按 顺 序 把 引用 的 对 象 复制 到 新 空间 ， 
关系 近 的 对 象 会 被 分 配 在 相近 的 内 存 空间 上 ， 这 称 为 局 部 性 。 


我 们 知道 ， 关 系 近 的 对 象 同时 被 访问 的 可 能 性 也 高 。 计 算 机 上 因为 有 绥 
Tu ee 局 部 性 高 的 程序 具 


为 一 方 和 面 ， 复 制 方式 也 有 缺点 。 复 制 方式 要 复制 所 有 活着 的 对 象 ， 几 平 
具有 与 标记 和 紧缩 方式 同样 的 缺点 。 


一 部 分 Lisp 处 理 系统 采用 单纯 的 复制 方式 。 还 有 ， 很 多 Java 虚拟 机 把 
复制 方式 与 其 他 方式 组 合 起 来 ， 提 供 下 文 所 述 的 分 代 垃 圾 收集 。 


14.3.9 多 种 多 样 的 垃圾 收集 算法 


垃圾 收集 的 基本 算法 大 致 可 以 归结 为 以 上 4 种 ， 并 在 此 基础 上 有 各 种 变 
形 。 


此 外 ， 还 有 把 基本 算法 组 合 起 来 的 几 种 技术 ， 这 里 介绍 其 中 几 个 具有 代 
表 性 的 技术 。 


。 分 代 垃 圾 收集 
。 保守 垃圾 收集 
。 增 量 垃圾 收集 
。 并 行 垃 圾 收集 
。 位 图 标志 





























这 些 技术 的 组 合 也 是 有 可 能 的 。 

14.3.10 ”分 代 垃 圾 收集 

首先 来 讲解 垃圾 收集 技术 中 最 有 名 最 重要 的 分 代 垃 圾 收集 (generational 
GC) 。 





分 代 垃 圾 收集 的 基本 思想 是 利用 程序 和 对 象 的 性 质 。 一 般 的 程序 都 有 这 
样 一 个 性 质 ， 几 乎 所 有 的 对 象 都 在 比较 短 的 时 间 里 变 成 垃圾 ， 存 活 时 间 
超过 一 定 程度 的 对 象 总 是 拥有 更 长 的 寿命 。 


寿命 长 的 对 象 更 容易 活 下 来 ， 寿 命 短 的 对 象 会 在 更 短 的 时 间 内 变 成 也 
圾 ， 因 为 这 一 性 质 ， 就 可 以 重点 对 分 配 之 后 还 没有 怎么 经 过 时 间 的 “年 
和 
垃圾 。 


有 共 体 来 说 ， 分 代 垃 圾 收集 把 对 象 的 内 存 空间 分 成 两 个 ， 分 别 是 容纳 年 轻 
对 象 的 “新 代 ” 用 的 区 域 和 容纳 长 寿 对 象 的 “ 旧 代 ”用 的 区 域 。 有 的 实现 按 
3 代 以 上 进行 划分 ， 这 里 为 了 简单 说 明 ， 只 考虑 两 代 的 情况 。 


如 果 前 面 关 于 对 象 寿 命 的 假设 成 立 的 话 ， 仅 仅 扫描 容纳 年 轻 对 象 的 新 代 
空间 ， 惑 可 能 以 非常 高 的 比例 大 量 回收 成 为 科 圾 的 对 象 ， 这 种 只 扫描 新 
代 区 域 的 回收 称 为 轻 垃圾 收集 。 


但 是 ， 单 纯 地 只 对 新 代 区 域 扫描 ， 释 放 的 算法 是 不 能 达到 民 好 效果 的 ， 
因为 存在 有 旧 代 区 域 对 新 代 区 域 的 引用 。 


如 果 只 扫 摘 新 代 区 域 的 话 ， 就 没有 检查 旧 代 区 域 对 新 代 区 域 的 引用 ， 只 
站 
子 问题 。 


分 代 垃 圾 收集 解决 这 一 问题 的 办 法 是 ， 监 视 对 象 的 更 新 ， 在 旧 代 区 域 引 
用 新 代 区 域 发 生 的 同时 ， 惑 把 这 一 引用 的 记录 例 程 以 及 对 象 的 更 新 场所 
全 都 记录 下 来 ， 这 个 检查 例 程 叫 作 写 屏障 (write barrier) 。 记 录 旧 代 区 
域 对 新 代 区 域 的 引用 称 为 记录 集 (remembered set) 。 


昌 代 区 域 中 对 象 一 般 具 有 寿命 比较 长 的 倾 加 ,但 绝 不 是 说 它 “ 总 也 不 
死 *。 随 着 程序 的 执行 ， 旧 代 区 域 中 也 会 积聚 起 垃圾 。 旧 代 区 域 中 垃圾 


























不 回收 的 话 ， 也 会 发 生 内 存 泄漏 ， 所 以 需要 不 时 地 扫 摘 包括 旧 代 区 域 在 
内 的 所 有 区 域 ， 进 行 全 面 的 垃圾 收集 。 以 所 有 区 域 为 对 象 的 垃圾 收集 称 
为 全 垃圾 收集 或 重 垃圾 收集 。 


以 上 说 明 的 分 代 垃 圾 收集 的 原理 如 图 14-23 所 示 。 
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图 14-23 ”分 代 垃 圾 收集 的 原理 。 (a) 把 寿命 短 的 新 代 区 域 与 寿命 长 的 旧 代 区 域 分 隔 开 来 管理 
对 象 ， 用 记录 集 来 记录 两 者 之 间 的 引用 ; (bp) 新 代 区 域 中 有 引用 关系 的 对 象 移 到 旧 代 区 域 中 ， 
释放 没有 引用 关系 的 对 象 


分 代 垃 圾 收集 减少 了 扫描 对 象 的 个 数 ， 有 缩短 平均 特 俘 时 间 的 效果 。 但 
是 ， 因 为 要 执行 全 垃圾 收集 ， 最 大 暂停 时 间 不 会 得 到 明显 改善 。 


对 于 对 象 寿命 假说 成 芯 的 程序 而 言 ， 因 为 减少 了 扫描 对 象 ， 厨 叶 量 可 以 
得 到 巨大 改善 。 但 是 程序 的 行为 ， 如 把 对 象 分 成 几 代 ， 在 什么 条 件 下 进 
行 重 垃圾 收集 等 ， 会 对 性 能 有 非常 大 的 影 啊 。 

分 代 垃 圾 收集 利用 对 象 寿 命 倾 问 这 一 性 质 是 一 个 非常 有 趣 的 主意 。 除 引 
用 计数 器 方式 之 外 ， 分 代 方 法 可 以 与 许多 其 他 垃圾 收集 络 合 起 来 使 用 ， 
一 般 与 复制 方式 相 结 合 得 比较 多 。 


最 近 几 乎 所 有 的 Java 都 实现 有 分 代 垃 圾 收集 。 另 外 ， 函 数 型 语言 
OCaml (Objective Caml) 也 采用 了 分 代 垃 圾 收集 。 


14.3.11 保守 垃圾 收集 







































































像 C 这 种 本 来 没有 垃圾 收集 的 语言 ， 编 译 之 后 没有 你 留 区 别 整数 和 指针 
的 信息 。 因 为 CPU 对 两 者 不 加 区 分 ， 所 以 也 束 没 有 这 个 必要 。 通 常 ， 
垃圾 收集 的 实现 需要 明确 区 分 引用 (指针 〉， 而 C 和 C++ 没有 这 样 的 
功能 ， 在 这 样 的 环境 下 实现 垃圾 收集 的 技巧 之 一 称 为 保守 垃圾 收集 


(conservative GC) 。 


其 基本 思想 就 是 如 果 磁 巧 有 整数 的 值 与 引用 相同 的 话 ， 该 对 象 就 有 可 能 
被 引用 ， 也 就 当 它 是 活着 的 。 保 守 惑 是 倾 问 于 安全 的 意思 。 与 此 相对 ， 
能 够 明确 区 别 引 用 的 环境 下 的 垃圾 收集 称 为 精确 垃圾 收集 (exact 

GC) 。 


因为 倾 回 于 安全 一 面 ， 保 守 垃 圾 收集 在 C 或 C++ 这样 没 有 垃圾 收集 功 
能 的 语言 中 也 可 以 得 到 实现 ， 这 是 它 的 优点 ， 但 反 过 来 ， 本 来 应 该 回收 
的 对 象 却 在 意料 之 外 保留 下 来 不 能 回收 ， 这 是 它 的 缺 操 。 还 有 ， 它 不 能 
与 复制 垃圾 收集 这 样 需 要 移动 对 象 的 垃圾 收集 算法 组 合 使 用 。 


Ruby 及 用 的 是 保守 垃圾 收集 。 局 部 变量 可 以 按照 通常 语言 的 访问 路 径 
来 处 理 ， 系 统 堆栈 部 分 是 当 作 指针 数组 来 扫描 的 。Ruby 大 部 分 是 用 C 
编写 的 ， 因 为 有 了 保守 垃圾 收集 ，C 库 的 实现 变 得 非常 简单 。 实际 上 ， 
Python 和 Perl 因为 采用 的 是 引用 计数 器 ，C 例 程 内 部 的 引用 数 管理 非常 
复杂 ， 偶 然 筷 记 增 减 就 会 发 生 和 内存 问题 。 在 这 一 点 上 ， 用 C 编写 Ruby 
扩展 库 的 时 候 ， 基 本 上 不 用 操心 内 存 管理 ， 好 处 十 分 明显 。 


Ruby 以 外 有 一 个 名 为 Boehm 

GC (http://www.hpl.hp.com/pesonal/Hans_Boehm/gc/ ) 的 库 。 它 为 C 和 
C++ 增加 了 垃圾 收集 功能 。Boehm GC 也 同时 实现 了 分 代 垃 圾 收集 。 
Boehm GC 不 仅 用 于 C 和 C++， 在 Scheme 处 理 系统 

Gauche (http://pratical-scheme.net/gauche/ ) 等 多 种 语言 处 理 系 统 中 ， 也 
作为 垃圾 收集 功能 得 到 广泛 的 应 用 。 

14.3.12 ” 增 量 垃圾 收集 

在 实时 性 要 求 高 的 程序 中 ， 相 对 于 吞吐 量 而 言 ， 更 重视 的 是 最 大 暂停 时 
间 。 比 如 在 机 器 人 姿势 控制 程序 中 ， 如 果 因 为 垃圾 收集 而 使 控制 暂停 哪 
怕 是 0.1 秒 ， 机 器 人 就 会 摔 倒 。 或 者 是 在 汽车 的 判 车 控制 程序 中 ， 如 果 
因为 垃圾 收集 而 使 反应 变 慢 的 话 ， 真 是 不 堪 设 想 。 


在 这 类 程序 中 ， 垃 圾 收集 带 来 的 中 断 时 间 必 须 是 可 以 预测 的 。 比 如 可 能 
































有 类 似 这 样 的 限制 条 件 : 即使 是 最 差 的 情况 ， 垃 圾 收集 也 必须 在 10 至 
秒 内 完成 。 


普通 的 垃圾 收集 算法 都 不 能 保证 这 一 点 。 因 为 暂停 时 间 会 随 痢 对 象 数 量 
和 状态 而 改变 。 为 保证 实时 性 ， 不 需要 等 垃圾 收集 完全 执行 结束 ， 而 是 
要 把 垃圾 收集 处 理 细 分 成 许多 细小 的 片段 ， 每 次 执行 一 点 ， 这 叫 增 量 世 
圾 收集 。 

增 量 垃圾 收集 在 垃圾 收集 处 理 过程 中 程序 也 在 同时 执行 ， 引 用 有 可 能 会 
改变 。 结 果 是 垃圾 收集 的 一 致 性 就 不 能 得 到 保证 。 增 量 垃圾 收集 为 避免 
这 样 的 问题 ， 采 用 了 与 保守 垃圾 收集 相同 的 写 屏 菩 技 术 。 

典 入 式 处 理 系统 采用 的 是 增 量 垃圾 收集 。 有 名 的 Io 


(http://iolanguage.com/ ) 和 Lua (http:/www.lua.org/ ) 都 实现 了 增 量 
垃圾 收集 。 


14.3.13 ”并 行 垃圾 收集 


最 新 配 有 多 个 CPU 核心 的 多 核电 脑 开 始 普 及 起 来 。 不 仅 是 服务 器 ， 美 
Intel 公司 的 Core 2 Duo 是 个 人 电脑 CPU， 使 多 核电 脑 变 得 不 再 稀 


奇 。 


在 这 样 的 多 核 环境 下 ， 有 灵活 运用 线程 可 以 最 大 限度 地 发 挥 多 个 CPU 的 
能 力 。 并 行 垃圾 收集 器 是 要 最 大 限度 地 利用 多 个 CPU 的 能 


并 行 垃圾 收集 的 基本 原理 与 增 量 垃圾 收集 大 致 是 一 样 的 ， 都 是 利用 写 屏 
珊 来 维护 当前 状态 的 信息 。 有 的 并 行 世 圾 收集 的 实现 生成 垃圾 收集 专用 
线程 ， 把 垃圾 收集 设计 成 总 是 与 普通 处 理 并 行 执行 。 


美国 Sun 公司 的 Hotspot JVM 等 实现 了 并 行 垃 圾 收集 。 

















14.3.14 ”位 图 标记 


以 Linux 为 首 的 UNIX 系列 操作 系统 在 使 用 fork 系统 调用 复制 过 程 的 时 
候 ， 内 存 空间 并 不 进行 复制 而 是 直接 共享 。 


其 中 任何 一 个 过 程 要 往 内 存 里 写 数据 的 时 候 ， 操 作 系 统 的 虚拟 内 存 系统 
都 会 捕 换 到 这 一 要 求 ， 茶 个 页 面 要 写 入 数据 时 则 复制 该 页 面 : 。 这 个 写 











时 复制 《copy-on-write) 功能 可 以 减少 不 必要 的 页 的 复制 ， 从 而 节约 内 
存 空间 ， 改 善 性 能 。 


3 页 是 虚拟 内 存 管理 内 存 的 单位 。 
不 过 ， 垃 圾 收集 与 这 一 为 写 而 复制 的 功能 兼容 性 不 好 。 给 引用 对 象 设置 
标记 的 方式 会 因 设置 标记 而 复制 包含 有 该 对 象 的 内 存 页 。 


复制 方式 也 同样 会 产生 大 量 写 内 存 的 操作 。 生 成 子 进程 处 理 的 程序 ， 会 
在 发 生 垃 圾 收集 的 瞬间 引起 操作 系统 复制 大 量 的 内 存 页 。 利 用 子 进程 的 
程序 常 肖 会 因为 这 个 内 存 页 复制 而 引 友 性 能 问题 。 

位 图 标记 是 在 利用 标记 的 垃圾 收集 中 消减 操作 系统 内 存 页 复制 的 方法 。 
它 不 在 对 象 里 设置 被 引用 的 标记 ， 而 是 利用 外 部 位 图 区 域 (管理 用 内 存 
区 域 ) 来 保存 引用 标记 。 


结 末 ， 只 有 标记 用 的 位 图 部 分 会 发 生 内 存 页 复制 ， 从 而 避免 了 复制 没有 
实际 更 新 的 对 象 所 在 的 内 存 页 。 


Ruby 的 垃圾 收集 也 有 了 实现 位 图 标记 的 补 本 。Web 应 用 程序 环境 在 有 
的 情况 下 可 以 改善 性 能 。 


4 详细 请 引用 http://www.rubyist.net/~matz/20080205.html#p01 。 





















































14.4 用 C 语言 来 扩展 


Ruby 是 解释 型 语言 ， 也 就 是 说 ，Ruby 程序 是 由 名 为 Ruby 解释 器 的 程 
序 来 解释 执行 的 。 


提起 解释 器 ， 大 家 都 可 能 党 得 它 是 逐 行 读 取 程 序 并 执行 的 ， 实 际 上 
Ruby 解释 器 是 把 要 执行 的 程序 全 部 读 进来 ， 首 先 变 换 成 更 有 效率 的 内 
部 表现 形式 。 解 释 器 对 其 内 部 表现 加 以 分 析 来 执行 程序 ， 但 从 外 部 看 不 
到 Ruby 程序 变换 成 内 部 表现 的 样子 。 


这 是 解释 型 语言 的 特征 ， 也 就 是 说 ， 程 序 修改 之 后 ， 号 上 整 可 以 照样 执 
行 ， 开 发 周期 非常 快 。 相 对 于 拥有 这 种 性 质 的 解释 型 语言 ，C、C++ 或 
Java 这 样 的 编译 语言 是 首先 把 程序 变换 成 计算 机 可 以 直接 执行 的 形式 ， 
然后 再 从 头 执行 。 


因为 在 执行 程序 的 时 候 ， 编 译 型 语言 不 再 需要 对 原来 的 程序 进行 解释 和 
变换 ， 大 都 速度 较 快 。 但 是 ， 在 开发 过 程 中 需要 有 编译 这 一 步 又， 而 且 
为 了 生成 高 速 执行 形式 ， 编 译 器 要 进行 各 种 各 样 的 处 理 〈 称 为 优化 ) ， 
开发 周期 容易 变 长 。10 多 年 前 ， 我 曾 在 某 公 司 开 友 过 商业 软件 ， 当 时 
曾 发 生 过 花 了 一 个 晚上 还 没有 编译 完 的 情况 。 从 那 以 来 ， 计 算 机 性 能 已 
经 得 到 巨大 改善 ， 我 想 现在 不 会 再 有 那样 的 事情 发 生 了 。 

14.4.1 开发 与 执行 速度 的 取舍 

像 这 样 执 行 速度 慢 但 开发 周期 快 的 解释 型 语言 ， 与 开发 周期 容易 变 慢 而 
执行 速度 高 的 编译 型 语言 ， 第 常 需要 进行 取舍 。Ruby 的 设计 方针 是 开 
发 效率 优 于 执行 效率 ， 选 择 解释 型 的 实现 也 就 是 必然 的 : 。 

1 但是， 现在 有 多 种 Ruby 执行 系统 并 不 都 是 解释 型 的 。 比 如 xruby 处 理 系统 是 把 Ruby 程序 编 
译 成 Java 字 节 码 。 

那么 ， 这 个 Ruby 解释 器 (是 我 开发 的 ， 通 称 为 Matz's Ruby 

Interpreter， 省 略为 MRI) 又 是 用 什么 语言 开发 的 呢 ? 它 是 用 C 语言 开 
发 的 2。 


2 其 他 还 存在 有 用 Java 开发 的 JRuby， 用 C# 开 发 的 IronRuby 以 及 使 用 C++ 与 Ruby 本 身 开发 的 
Rubinius 等 Ruby 处 理 系统 。 

















































































































采用 C 语言 的 理由 如 下 : 

。 我 本 来 是 C 程序 员 ，C 语言 是 我 最 拿手 的 ; 

。C 允许 系统 调用 ， 速 度 高 ; 

。 用 面向 对 象 语言 来 实现 别 的 面向 对 象 语言 的 话 ， 容 易 混淆 对 象 的 概 








实际 上 ， 我 觉得 用 Java、C# 或 者 C++ 来 开发 其 他 语言 处 理 系统 的 开发 
者 真是 了 不 起 。 


Ruby 解释 器 的 构造 大 致 如 图 14-24 所 示 。 字 人 句 解 析 器 和 语法 解析 器 二 

者 结合 ， 构 成 了 把 Ruby 程序 转换 成 内 部 表现 形式 的 编译 器 。Ruby 1.8 

的 内 部 表现 是 名 为 构造 树 的 环 状 结构 。Ruby 1.9 也 生成 同样 的 构造 树 ， 

R000 
现形 式 。 








字句 解析 器 
语法 解析 器 








图 14-24 Ruby 解释 器 的 构成 


编译 器 生成 的 内 部 表现 传递 给 称 为 引擎 的 部 分 。 引 擎 是 解释 内 部 表现 ， 
并 实际 上 执行 程序 的 部 分 。1.9 版 的 引擎 解释 的 字 节 码 ， 可 以 说 是 近似 
于 虚拟 计算 机 的 机 器 语言 ， 所 以 1.9 版 的 引擎 也 可 以 称 为 VM， 即 所 谓 
的 虚拟 机 (Virtual Machine ) 。 





顺便 说 一 下 ，1.9 版 的 VM 的 代码 是 YARV ( 读 成 “ 雅 鲁 布 "或 者 “ 亚 
布 ” 的 人 好 像 挺 多 的 ) ， 是 Yet Another Virtual Machine 的 缩写 。 这 是 因 
为 当初 开始 开发 YARV 的 时 候 ， 已 经 有 多 个 面向 Ruby 的 VM 在 开发 之 
中 ， 而 YARYV 则 作为 另 一 个 YM 而 诞生 了 。 结 果 ， 当 时 开发 的 其 他 的 
VM 都 没有 能 够 实现 Ruby 的 所 有 功能 ， 最 终 正 式 采 用 了 YARV。 正 式 
采用 了 之 后 ， 就 不 应 该 再 称 为 Yet Another VM， 也 许 应 该 改称 The VM 
了 ， 但 因为 不 忍心 扔 掉 这 个 长 时 间 叫 惯 了 的 具有 杀 切 感 的 名 字 ， 所 以 也 
就 继续 沿用 了 下 来 。 


闲话 休 提 。 引 擎 在 解释 内 部 表现 的 时 候 ， 需 要 其 他 组 件 的 帮助 。 内 存 和 
对 象 的 管理 ， 变 量 访问 和 方法 调用 的 实现 等 ， 都 要 依靠 确 层 称 为 运行 库 
的 组 件 来 完成 。 运 行 库 提 供 底层 强 有 力 的 文 持 ， 是 程序 执行 时 不 可 或 缺 


的 部 分 。 


Ruby 利用 的 各 种 类 是 作为 类 库 提 供 的 。Ruby 中 的 这 些 部 分 也 是 用 C 编 
写 的 。 像 Ruby 这 样 的 解释 型 语言 ， 因 为 是 经 过 C 编写 的 引擎 来 间接 执 
行程 序 ， 与 一 般 的 编译 语言 相 比 ， 执 行 速度 明显 慢 得 多 (100 倍 或 者 

1000 倍 ) 。 但 是 ， 实 际 上 程序 的 执行 时 间 大 部 分 都 花 在 C 编写 的 类 库 
方法 内 部 ， 因 此 在 执行 速度 上 很 少 会 产生 那么 巨大 的 差距 。 


14.4.2 ”扩展 库 

扩展 库 是 指 利 用 Ruby 运行 库 的 API， 用 C 定义 的 类 库 。Ruby 的 API 
使 用 C 几乎 可 以 实现 Ruby 所 有 的 功能 。 使 用 这 些 API 可 以 很 简单 地 实 
现 如 下 的 功能 。 

。 定义 类 。 

。 定义 方法 。 











。 访问 实例 变量 。 
。 调用 方法 。 
调用 块 。 


但 是 ， 如 果 仅仅 是 要 实现 与 Ruby 同样 功能 的 话 ， 是 没有 必要 特意 用 C 
来 编写 的 。Ruby 能 做 的 事情 就 用 Ruby 来 做 好 了 ， 这 样 既 不 需要 浪费 编 








译 的 时 间 ， 编 写 和 执行 又 都 简单 。 

特意 花 时 间 用 C 来 实现 扩展 库 的 理由 主要 有 以 下 两 点 。 
。 想 要 比 Ruby 执行 速度 快 。 
。 想 使 用 C 可 以 利用 的 库 。 


前 面 已 经 说 过 ，Ruby 是 解释 型 语言 ， 它 的 执行 速度 不 如 像 C 这 样 的 编 
译 型 语言 。 如 果 是 绝对 需要 改善 速度 的 程序 ， 用 C 扩展 库 来 实现 其 中 成 
为 瓶 祷 的 部 分 的 话 ， 有 可 能 显著 改善 程序 的 执行 速度 。 


UNIX 系列 操作 系统 的 大 多 数 功 能 都 是 通过 C 可 以 访问 的 库 来 提供 的 。 
Ruby 要 想 利 用 这 些 功 能 的 话 ， 就 需要 有 一 种 从 Ruby 调用 C 的 API 的 
方法 ， 这 了 基 简 单 的 方法 就 是 利用 扩展 库 。 


14.4.3 看 例题 学 习 扩展 模块 


要 学 习 编程 的 话 ， 查 看 实际 运行 的 程序 代码 是 最 有 效 的 方法 。 这 次 把 
UNIX 的 简易 数据 库 dbm 作为 例题 。Ruby 附带 有 dbm 接口 的 标准 扩展 
库 ， 程 序 共有 829 行 ， 提 供 有 非常 丰富 和 复杂 的 功能 。 这 次 让 我 们 来 作 
一 个 简单 的 minidb 。 因 为 一 点 特别 的 原因 ， 我 们 不 用 传统 的 DBM ， 而 
使 用 QDBM 库 。 


这 次 作为 例题 的 minidb 库 由 MiniDB 类 来 实现 ， 其 中 仅仅 定义 5 个 方 
法 。 我 认为 ， 就 这 些 已 经 足够 让 我 们 掌握 扩展 库 的 基本 使 用 方法 了 。 


MiniDB 类 的 规格 如 表 14-1 所 示 ，MiniDB 类 的 用 法 示例 如 图 14-25 所 
人 No 














表 14-1 MiniDB 类 的 方法 


2 











require 'minidb' 


db = MiniDB.new("/tmp/foo") 
db["abc"] = "123" 

p db["abc"] 

db["def"] = "456" 

p db["def"] 


db.each do |k,v| 


p [k, v] 
end 
db.close 
# 输出 : 
# "123" 

# "456" 
# ["abc"， "123"”] 
# ["def", "456"] 























图 14-25 使 用 MiniDB 类 的 例子 


让 我 们 以 此 为 基础 来 编写 MiniDB 类 初始 化 部 分 的 程序 。 扩 展 库 初始 化 
的 时 候 调 用 如 下 的 函数 : 




















库 名 一 般 选 择 为 类 名 的 小 写 形 式 ， 这 次 就 把 它 命 名 为 minidb 。 先 作成 
一 个 名 为 minidb 的 目录 ， 在 这 个 目录 中 作 一 个 名 为 minidb.c 的 文 
件 。 首 先 来 编写 minidb.c 的 初始 化 部 分 (参见 图 14-26) 。 








#include "gdbm.h" 
#include <ruby.h> 


static VALUE rb _ cMiniDB; 


Init minidb() 
{ 
rb_cMiniDB = rb_ define class("MiniDB", rb_cObject); 
rb _define alloc func(rb cMiniDB, minidb alloc); 
rb _define method(rb cMiniDB, "initialize", minidb init, 1); 


rb_define method(rb cMiniDB, "[]", minidb get, 1); 

rb _define method(rb cMiniDB, "[]=", minidb set, 2); 

rb _define method(rb cMiniDB, "close", minidb close, 8); 
rb _ define method(rb cMiniDB, "each", minidb each, ©8); 
rb _include module(rb cMiniDB, rb mEnumerable); 





图 14-26 ”minidb.c 初始 化 部 分 





关于 个 别 的 API 函数 这 里 先 不 作 说 明 ， 我 们 可 以 从 代码 中 的 英文 词 想象 
出 函数 的 功能 大 致 应 该 是 这 样 的 : 首先 定义 类 ， 然 后 定义 5 个 方 

法 。MiniDB 类 有 each 方法 ， 顺 便 把 Enumerable 模块 包含 进来 。 有 
了 这 一 行 ，MiniDB 类 就 可 以 使 用 Enumerable 模块 提供 的 大 量 方法 
Ts 


简单 说 明 一 下 Init_minidb 函数 内 容 ，rb_define_class 函数 是 定义 
类 的 ， 参 数 是 类 名 和 父 类 ， 它 返回 新 定义 类 的 对 

象 。rb_define_alloc_func 函数 指定 为 对 象 分 配 内 存 的 方法 。 关 于 
这 个 函数 稍 后 再 作 说 明 。 


这 次 虽然 没有 用 到 ， 但 顺便 说 明 一 下 ， 利 用 rb_define class_under 
函数 可 以 定义 嵌 套 类 。 第 一 个 参数 指定 嵌 套 类 外 侧 的 类 或 者 模块 。 其 余 
参数 与 rb_define_class 是 一 样 的 。 还 有 ， 把 这 些 函 数 名 中 了 的 
部 分 亚 换 成 module 的 话 ， 束 可 以 定义 模块 。 但 是 ， 模 块 是 没有 父 类 
的 ， 所 以 rb_define module 只 有 第 一 个 参数 。 


使 用 rb_define_method 函数 定义 方法 。 第 一 个 参数 是 拥有 该 方法 的 类 
或 者 模块 对 象 ， 第 二 个 参数 是 方法 名 ， 第 三 个 参数 是 实际 上 实现 该 方法 
的 C 函 数 指针 ， 最 后 第 四 个 参数 指定 C 函 数 所 接受 的 参数 。 当 第 四 个 参 
数 是 正 整 数 的 时 候 ， 函 数 接受 同样 个 数 的 VALUE 参数 〈 参 见 图 14- 
27a、b) 。 当 参数 为 -1 的 时 候 ， 函 数 接受 C 的 数组 为 参数 (参见 图 14- 
27c) 。 而 在 参数 是 -2 的 时 候 ， 函 数 接受 Ruby 的 数组 为 参数 〈 人 参见 图 
14-27d) 。 














/* a) 第 四 个 参数 是 9， 没 有 参数 */ 
VALUE funce(VALUE self) { 








} 





/* b) 第 四 个 参数 是 1， 有 一 个 参数 */ 
VALUE func1(VALUE self, VALUE arg) { 











ee 


/* c) 第 四 个 参数 是 -1， 接 受 数组 为 参数 */ 
/* 注意 参数 的 顺序 是 (argc，argv，self) */ 
VALUE func2(int argc, VALUE *argv, VALUE self) { 











/* d) 第 四 个 参数 是 -2， 接 受 Ruby 数组 为 参数 */ 
VALUE func1(VALUE self, VALUE args) { 








rb define method(Class, "methe", funco, 0) 


rb define method(Class, "methl", funcl, 1) 
rb _define method(Class, "meth2", func2, -1) 
rb define method(Class, "meth3", func3, -2) 








图 14-27 方法 函数 取得 参数 的 方法 





Ruby 的 方法 具有 可 见 性 ， 并 据 此 决定 什么 地 方 可 以 调用 

它 。rb_define_method 定义 可 见 性 为 public 的 方法 ， 定 义 其 他 可 见 
性 (private 及 protected ) 方法 的 时 候 ， 分 别 使 用 

rb _define private method 和 rb_define_protected_method 。 
这 些 函 数 定义 的 方法 仅仅 是 可 见 性 有 所 不 同 ， 因 此 参数 与 
rb_define_method 是 一 样 的 。 


Ruby 也 可 以 给 个 别 的 对 象 定义 方法 (定义 特殊 方法 ) 。 在 C 的 水 平 上 可 
以 使 用 rb_define singleton _method 来 定义 特殊 方法 。 第 一 个 参数 
不 是 类 或 模块 ， 而 是 拥有 该 方法 的 对 象 ， 其 他 参数 

与 rb_define_module 都 是 一 样 的 。 


使 用 rb_include_module 函数 在 类 或 模块 中 包含 其 他 模块 。 





14.4.4 QDBM 函 数 


这 次 用 到 的 QDBM 函数 如 网 14-28 所 示 。 


/* 打开 数据 库 */ 


DEPOT *dpopen(const char *name, int omode, int bnum); 





/* 从 DBM 取得 数据 */ 

/* 一 般 指 定 start 为 96，max 为 -1 */ 

/* 字符 串 的 长 度 保存 在 变量 ksiz 里 */ 

/* 返回 的 字符 串 需要 free */ 

char *dpget(DEPOT *depot, const char *kbuf, int ksiz, int start, int max, i 

















/* 往 DBM 保存 数据 */ 

/* dmode 可 以 指定 下 面 其 中 一 个 */ 
/* ”DP_DOVER - 覆盖 */ 

/* ”DP_DKEEP - 不 覆盖 */ 























/* ”DP_DCAT - 追加 */ 
int dpput(DEPOT *depot, const char *kbuf, int ksiz, const char *vbuf, int 


/* 对 数据 库 中 的 键 开始 循环 */ 
int dpiterinit(DBM *dbm); 











/* 返回 数据 库 中 下 一 个 键 */ 
char *dpiternext(DEPOT *dbm, int *len); 


/* 关闭 数据 库 */ 
datum dpclose(DEPOT *dbm); 








图 14-28 DBM 函数 


把 这 些 函 数 调 用 组 合 起 来 ， 就 可 以 实现 使 用 QDBM 的 编程 。 我 们 的 目 
的 是 用 Ruby 来 方便 地 调用 这 一 函数 群 。 


请 注意 ，QDBM 库 是 以 DEPOT 结构 为 中 心 ， 类 似 于 面向 对 象 的 调用 。 
这 意味 着 我 们 只 要 把 DEPOT 结构 看 成 是 Ruby 对 象 就 可 以 了 。 也 就 是 
因为 这 一 点 ，MiniDB 类 的 规格 才 变 成 前 面 表 中 说 明 的 样子 。 


让 我 们 接着 来 编写 MiniDB 类 的 中 心 内 容 吧 。 首 先 要 实现 一 个 封装 
DBM 结构 的 MiniDB 对 象 。 


像 这 次 用 对 象 来 封装 C 结构 的 情况 ， 需 要 告诉 Ruby 为 对 象 分 配 内 存 的 
方法 。 为 对 象 分 配 内 存 的 函数 是 Init_minidb 函数 调用 的 
rb_define_alloc_func() 。 参 数 是 要 指定 生成 对 象 的 类 和 生成 函 
数 。 








对 象 生成 函数 minidb_alloc 的 定义 如 图 14-29 所 示 。 


static void 
minidb free(DEPOT *db) 


if (db) dpclose(db); 
static VALUE 
minidb alloc(VALUE klass) 


{ 
} 


return Data Wrap_Struct(klass, 0, minidb free, NULL); 





图 14-29 对象 生成 函数 minidb_alloc 


minidb alloc 使 用 Data_Make_Struct 宏 定义 来 生成 封装 结构 的 对 
象 。Data_Make_Struct 宏 定 义 需 要 4 个 参数 ， 它 们 分 别 是 : 


。 对 象 的 类 ; 

。 GC 标志 函数 指针 ; 

。 用 来 释放 结构 的 函数 指针 ; 

。 结构 指针 。 
关于 GC 标记 函数 ， 当 封装 的 结构 直接 或 者 间接 引用 Ruby 对 象 的 时 
候 ， 会 影响 到 对 象 管理 ，GC 标记 函数 是 用 来 告诉 Ruby 运行 库 这 些 参 
数 信 息 的 。 这 次 因为 没有 这 样 的 引用 ， 所 以 参数 指定 为 0。 关 于 标记 函 
数 的 详细 说 明 ， 请 引用 Ruby 源 代 码 附 带 的 README.TXT 文件 ， 或 者 
《Ruby 编程 》 (Ohm 出 版 社 ) 等 书籍 。 
作为 用 来 释放 所 封装 结构 的 函数 ， 这 里 指定 的 是 minidb_free 函数 。 
它 调 用 dpclose 函数 。 但 是 ， 这 里 封装 的 结构 有 可 能 是 NULL ， 所 以 追 
加 了 检查 代码 。 


本 来 应 该 把 结构 指针 传递 给 Data_Wrap_Struct 宏 定义 ， 但 因为 这 个 
时 候 还 没有 给 要 封装 的 结构 (DEPOT * ) 分 配 内 存 ， 所 以 暂时 指定 为 














NULL 。 


14.4.5 ”初始 化 对 象 


分 配 了 对 象 之 后 ， 就 调用 它 的 Initialize 方法 ， 这 与 Ruby 程序 的 类 
是 一 样 的 。initialize 方法 是 由 minidb_init 函数 实现 的 (参见 图 
14-30) 。 


static VALUE 
minidb init(VALUE self, VALUE path) 


{ 
DEPOT *db; 


SafestringValue(path ) ; 
db = dpopen(RSTRING_PTR(path)，DP_OREADER|DP_OWRITER|DP_OCREAT，6); 
if (!db) { 


rb_raise(rb eRuntimeError, "dpopen - %s", dperrmsg(dpecode)); 


} 
DATA_PTR(self) = db; 


return self; 





图 14-30 ”对象 初 始 化 函数 minidb_init 


不 管 是 哪个 函数 ， 基 本 构造 都 是 一 样 的 : 


(必要 的 话 ) 检查 参数 ; 
调用 处 理 函 数 ; 
出 错 的 时 候 抛 出 异常 ; 


返回 值 。 











minidb_init 函数 也 不 例外 。 首 先 ， 使 用 SafestringValue 宏 定义 来 
检查 参数 确实 是 字符 串 。 类 型 变换 和 检查 都 由 这 个 宏 定义 来 负责 完成 
了 。SafeStringValue 是 用 来 检查 参数 是 “安全 ”字符 串 的 宏 定 义 。 所 
谓 安 全 就 是 ， 参 数 不 是 由 外 部 输入 的 不 能 信赖 的 字符 串 。 如 果 用 不 能 信 
赖 的 字符 串 作为 数据 库 路 径 名 的 话 ， 会 带 来 意 想不到 的 安全 性 问题 ， 所 
以 这 里 特意 进行 了 检查 。 在 不 需要 检查 安全 性 的 时 候 ， 可 以 使 用 











StringValue 宏 定义 。 


为 了 从 字符 串 对 象 中 取出 C 的 指针 ， 这 里 使 用 的 是 RSTRING_PTR 宏 定 
义 。 另 外 ， 用 RSTRING_LEN 宏 定义 可 以 取得 字符 串 的 长 度 。 


下 一 步调 用 dpopen 函数 ， 打 开 数 据 库 ， 得 到 要 封装 的 结构 。 

如 果 在 打开 数据 库 的 时 候 发 生 什么 错误 的 话 ， 就 应 该 扫 出 异常 。 要 抛 出 
异常 可 以 用 rb_raise 函数 来 实现 。 第 一 个 参数 是 寞 党 类 ， 第 二 个 参数 
以 后 与 printf 是 一 样 的 。 


最 后 用 DATA_PTR 宏 定义 来 更 新 一 直 是 NULL 的 结构 指针 ， 完 成 初始 化 
处 理 。 一 个 个 看 下 来 ， 其 实 也 没有 什么 特别 难 的 东西 。 








14.4.6 ”实现 方法 
接着 让 我 们 来 看 一 下 其 他 方法 的 实现 吧 (参见 图 14-31) 。 





static VALUE 
minidb get(VALUE self, VALUE key) 


DEPOT *db; 
char *p; 
int len; 
VALUE str; 


Data Get Struct(self, DEPOT, db); 

StringValue(key); 

p = dpget(db, RSTRING PTR(key), RSTRING LEN(key), 06, -1, &len); 
str = rb tainted str new(p, len); 

free(p); 


return str; 


} 


static VALUE 
minidb set(VALUE self, VALUE key, VALUE val) 


DEPOT *db; 
Data Get Struct(self, DEPOT, db); 


StringValue(key); 
StringValue(val); 


if (!dpput(db, RSTRING PTR(key), RSTRING LEN(key), 
RSTRING PTR(val), RSTRING LEN(val), DP_DOVER)) { 
rb_raise(rb eRuntimeError, "dpput failed"); 


} 


return val; 


} 


static VALUE 
minidb close(VALUE self) 


{ 
DEPOT *db; 
Data Get Struct(self, DEPOT, db); 
dpclose(db); 
DATA_PTR(self) = 6; 
return Qnil; 
} 


static VALUE 
minidb each(VALUE self) 
{ 

DEPOT * db; 

char *p; 

int len; 

VALUE key; 


Data Get Struct(self, DEPOT, db); 
dpiterinit(db); 
for(;;) { 
p = dpiternext(db, &len); 
if (!p) break; 
key = rb_tainted str new(p, len); 
rb yield values(2, key, minidb get(self, key)); 


} 


return self; 











图 14-31 minidb 方法 的 实现 


| Data_Get_Struct 宏 定义 ， 然 后 取出 封装 的 
结 A) o 


接着 用 StringValue 来 进行 类 型 检查 ，rb_raise 来 抛 出 异常 ， 都 跟 上 


面 讲 述 的 模式 是 一 样 的 。 


要 特别 说 明 的 是 rb_ tainted_str_new 和 rb yield _values 这 两 个 
函数 。 


从 数据 库 中 读 取 出 来 的 字符 串 要 转换 成 Ruby 的 字符 串 。 但 是 ， 从 数据 库 
读 取 的 字符 串 是 从 外 部 输入 的 ， 并 不 一 定 是 可 以 信赖 的 。 使 

用 rb_tainted_str_new 函数 ， 明 确 指 出 它 不 是 安全 字符 串 这 一 事实 。 
Ruby 能 够 检查 出 来 使 用 不 安全 字符 串 的 危险 操作 ， 这 意味 着 不 容易 发 生 
器 站 攻击 的 安全 性 问题 。 


rb_yield_values 是 Ruby 中 相当 于 yield 的 函数 。C 很 难 像 Ruby 那 样 
根据 参数 的 个 数 而 改变 动作 ， 所 以 用 rb_yield_values 来 明确 地 指明 
参数 个 数 。 只 指定 一 个 值 的 时 候 也 可 以 用 rb_yield 函数 。 


14.4.7 关于 垃圾 收集 的 注意 事项 


Ruby 有 垃圾 收 案 的 机 制 ， 能 够 目 动 回收 不 再 使 用 的 对 象 。 这 种 机 制 非 
常 好 ， 但 也 有 需要 稍 加 留意 的 地 方 。 


Ruby 的 垃圾 收集 属于 所 谓 的 保守 垃圾 收集 类 ，Ruby 的 对 象 如 果 被 C 的 
变量 访问 着 的 话 ， 就 不 会 被 回收 ， 这 一 点 是 相当 出 色 的 。 但 是 ， 如 图 
14-32 所 示 的 情况 束 会 及 生 问 题 。 














static VALUE 

foo(VALUE self) 

{ 
VALUE str = some func(); 
char *p = RSTRING PTR(str); 














/* 使 用 p 的 处 理 */ 











/* p 还 在 使 用 之 中 ， str 己 不 再 使 用 */ 
/* 垃圾 收集 把 str 回收 ，p 变 得 无 效 */ 
/* 严重 的 程序 错误 */ 









































图 14-32 保守 垃圾 收集 的 麻烦 问题 
这 里 ， 引 用 着 Ruby 对 象 的 变量 str 经 编译 器 优化 处 理 之 后 ， 已 不 存在 


于 程序 之 中 ， 即 使 p 引用 着 str 所 指 同 的 地 址 ，Ruby 的 垃圾 收集 也 不 
能 认识 到 str 指 癌 的 对 象 还 在 使 用 之 中 这 一 事实 ， 束 会 发 生 这 样 的 问 
题 。 

避免 这 一 问题 的 有 效 方法 是 ， 在 成 为 问题 原因 的 VALUE 变量 前 加 上 
volatile 修饰 。 





14.4.8 ”其 他 的 Ruby API 
为 了 在 Ruby 与 C 之 间 进 行 数据 交换 ，Ruby 还 提供 了 其 他 数量 众多 的 
人 
。 访问 实例 变量 。 
。 定义 或 引用 常数 。 
。 调用 方法 。 
。 检查 和 变换 各 种 数据 类 型。 
。 解析 方法 的 参数 。 
详细 请 引用 README.TXT 等 文件 。 
14.4.9 扩展 库 的 编译 


即使 写 好 了 源 代码 ， 如 果 不 加 编译 的 话 ， 也 是 没有 意义 的 。 以 下 是 扩展 
库 的 编译 步 又 。 

首先 按照 以 上 的 顺序 编写 源 代 码 。 知 C 程序 的 文件 名 后 级 一 律 约定 为 .c 
的 话 ， 后 续 步 又 会 自动 识别 出 来 C 程序 文件 。 


为 生成 编译 所 需要 的 文件 ， 需 要 准备 必要 的 Ruby 文件 。 这 个 文件 通常 
命名 为 extconf.rb。minidb 的 extconf.rb 的 内 容 如 图 14-33 所 示 。 


require 'mkmf' 
if have_ library("qdbm") and 





have_header("qdbm/depot.h") 
create makefile("minidb") 
end 








图 14-33 extconf.rb 


extconf.rb 是 由 以 下 几 个 部 分 构成 的 : 


。 调用 require “mkmf ' ; 


e。 用 have_ library 和 hava_header 检查 必要 的 库 和 头 文 件 是 否 存 
在 ; 


。 用 create_makefile 来 生成 必要 的 Makefile.create_makefile 
的 参数 是 库 的 名 字 。 
照 图 14-34 执行 extconf.rb， 束 可 以 生成 Makefile 。 
% ruby extconf.rb 


checking for main() in -lqdbm... yes 
checking for qdbm/depot.h... yes 


creating Makefile 





图 14-34 ”生成 Makefile 


用 make 命令 来 编译 ， 尔 后 可 以 用 make install 命令 来 安装 编译 后 的 
库 。 


14.4.10 扩展 库 以 外 的 工具 


uy 的 扩展 工具 不 仅仅 是 扩展 库 。 这 里 简单 介绍 一 下 其 他 的 Ruby 扩展 
工具 。 








RubyInline 


RubyInline 可 以 在 Ruby 的 源 代 码 中 直接 嵌入 C 的 程序 。 不 用 每 次 准备 
extconf.rb 文件 ， 也 不 需要 明确 的 编译 步 又， 非常 便利 ， 但 它 也 有 不 





分 约束， 比如 在 执行 环境 中 需要 有 编译 占 ， 与 外 部 库 的 链接 也 有 些 麻 焕 


Ricsin 


YARY 的 开发 者 管 田 先生 最 近 在 开发 Ricsin。RubyInline 只 是 直接 利用 
扩展 库 的 API， 省 略 了 编译 的 步 又 而 已 ， 而 Ricsin 把 VM 作为 自己 的 一 

部 分 ， 只 有 方法 处 理 的 一 部 分 采用 C 来 实现 。 这 样 可 以 避免 万 法 调用 且 
开销 ;和 上 够 期 望 提 高 处 理 速度 。Ricsin 可 以 从 Ruby 程序 库 的 ricsin 分 文 
得 到 。 


dl 


Ruby 程序 执行 环境 ， 特 别 是 Windows 环境 ， 并 不 总 是 备 有 编译 器 。d1 
， Ruby 水 平 的 外 部 库 直 接 调 用 成 为 可 能 。d1 是 Ruby 本 身 的 标准 
2 


有 了 dl ， 仅 用 Ruby 也 能 实现 与 minidb 同样 动作 的 库 。 把 图 14-35 的 
程序 保存 成 minidb.rb 文件 ， 没 有 扩展 库 也 可 以 使 用 minidb 。d1 的 
优点 是 在 没有 安装 编译 器 和 头 文件 的 环境 下 也 可 以 运行 

















require "dl/import" 
require "dl/struct" 


class MiniDB 
module Impl 
extend DL::Importable 


dlload "libqdbm.so" 


extern "DEPOT *dpopen(const char*, int, int)" 
extern "int dpclose(DEPOT*)" 
extern "int dpput(DEPOT*, const char*, int, const char*, int, int)" 
extern "char *dpget(DEPOT*, const char*, int, int, int, int*)" 
extern "int dpiterinit(DEPOT* )" 
extern "char *dpiternext(DEPOT*, int*)" 

end 


def initialize(path) 

@db = Impl.dpopen(path, 7, 9) 

# 7 = DP_OREADER|DP_OWRITER|DP_OCREAT 
end 
def [](key) 


Impl.dpget(@db, key, key.size, 086, -1, nil) 
end 
def []=(key, val) 
unless Impl.dpput(@db, key, key.size, val, val.size, 8) 
raise RuntimeError, "dpput failed" 
end 
end 


def close 
Impl.dpclose(@db) 
return nil 
end 
def each 
Impl.dpiterinit(@db) 
loop do 
key = Impl.dpiternext(@db, nil) 
break unless key 
yield key, self [key] 
end 
end 
end 











图 14-35 使 用 dl 的 minidb 


ffi 

关于 Ruby 的 扩展 ，ffi 库 受 到 关注 。ffi 是 foreign function interface 的 缩 
写 ， 它 也 提供 在 Ruby 水 平 上 的 与 外 部 函数 的 直接 接口 ， 这 个 目的 与 dl 
几乎 是 一 样 的 。ffi 可 以 从 RubyGems 得 到 。 


ffi 的 特征 是 使 用 libffi 更 有 效率 地 调用 外 部 函数 ，Ruby、Rubinius 和 
JRubby 都 可 以 使 用 同样 的 API。 


使 用 ffi 库 实现 minidb 的 程序 如 图 14-36 所 示 。 





require “ffi 


class MiniDB 
module Impl 
extend FFI::Library 
ffi lib("qdbm") 
attach function "dpopen", [:pointer, :int, :int], :pointer 
attach function "dpget", [:pointer, :pointer, :int, :int, :int, :pointe 


attach function "dpput", [:pointer, :pointer, :int, :pointer, :int, :in 
attach function "dpclose", [:pointer], :int 
attach function "dpiterinit", [:pointer], :int 
attach function "dpiternext", [:pointer, :pointer|], :pointer 
end 


def initialize(path) 
@db = Impl.dpopen(path, 7, 9) 
end 
def [](key) 
len = MemoryPointer.new(:int) 
d = Impl.dpget(@db, key, key.size, 606, -1, len) 
s = d.read string(len.read int) 
d.free 


end 
def [] = (key, val) 
unless Impl.dpput(@db, key, key.size, val, val.size, 8) 
raise RuntimeError, "dpput failed" 
end 
end 


def close 
Impl.dpclose(@db) 
return nil 
end 
def each 
Impl.dpiterinit(@db) 
loop do 
len = MemoryPointer.new(:int) 
p = Impl.dpiternext(@db, len) 
break if p.null? 
key = p.read string(len.read int) 
yield key, self [key] 
end 
end 








图 14-36 ffi 实现 的 minidb 


* 米 米 


本 节 学 习 了 Ruby 的 扩展 功能 。 使 用 Ruby 的 扩展 API 可 以 比较 简单 地 
实现 C 的 高 速 化 库 或 外 部 库 的 接口 。 另 外 ， 使 用 dl 或 ffi 这样 的 技 
术 ， 不 用 C 就 可 以 实现 对 外 部 库 的 访问 。 








14.5 ”为 什么 要 开源 


我 与 开源 /自由 软件 也 打 了 很 长 时 间 的 交道 了 。 最 初 接触 到 自由 软件 还 
是 大 学 时 代 1989 年 的 事 了 。 编 辑 器 Emacs 和 编译 器 GCC 是 我 最 初 接 
触 到 的 自由 软件 。 


我 自己 最 早 发 布 的 自由 软件 是 Emacs Lisp 一 书 中 介绍 的 邮件 阅读 器 

cmail， 己 经 记得 不 是 很 清楚 了 ， 我 想 那 大 致 羡 1990 年 前 后 的 事情 。 在 
那 之 后 ， 又 发 布 了 Ruby 〈1995 年 ) ， 跳 槽 到 现在 的 公司 后 ， 专 门 从 事 
ee (1997 年 ) ， 在 我 的 生活 中 ， 开 源 所 占 的 比例 越 来 越 











沉 漫 在 “开源 生活 ”中 的 我 也 有 困惑 的 时 候 。 对 于 开行 业 以 外 的 人 士 ， 
以 及 即使 是 IT 行业 内 但 对 开源 保持 一 定 距离 的 人 士 ， 我 都 一 直 很 难 让 
他 们 明白 “开源 是 什么 ”这 个 问题 。 因 为 我 也 有 自己 的 立场 ， 不 愿意 使 用 
简单 而 又 容易 产生 误解 的 “免费 软件 ”这 种 说 法 ， 即 使 费劲 说 了 一 大 堆 ， 
结果 听 的 人 还 是 一 付 不 知 所 云 的 面孔 。 


这 种 “难以 理解 度 ? 好 像 与 对 “ 目 由 软件 ?这 个 单词 本 号 的 误解 ， 以 及 它 在 
不 同 侧面 所 拥有 的 多 种 概念 不 无 关系 。 


14.5.1 自由 软件 的 思想 
首先 ， 让 我 们 从 开源 与 自由 软件 的 区 别 开 始 吧 。 按 照 出 现 顺序 ， 首 先是 
1980 年 前 后 出 现 了 自由 软件 一 词 ， 后 来 (1998 年 ) 才 诞 和 后 了 开源 软件 


le 


有 由 软件 意味 痢 用 户 可 以 自由 处 理 的 软件 ， 它 的 背景 是 软件 是 自由 的 思 
人 





目 由 软件 这 一 思想 起 源 于 自由 软件 基金 会 (Free Software Foundation， 
FSF) ， 关 于 软件 的 和 目 由 ， 它 是 这 样 考虑 的 : 


。 执行 的 目 由 
。 阅读 源 代码 的 目 由 


。 改变 源 代码 的 目 由 
。 再 发 布 源 代码 的 自由 


为 保证 执行 的 自由 ， 必 须 能 够 将 软件 免费 拿 到 手 。 出 于 学 习 和 研究 的 目 
的 ， 也 必须 能 够 自由 地 得 到 源 代 码 。 还 有 ， 为 了 修改 程序 错误 ， 或 者 为 
适合 自己 的 目的 而 进行 改造 ， 那 就 不 单单 是 阅读 源 代码 ， 还 要 允许 改变 
源 代码 。 把 自己 认为 好 的 软件 推荐 给 别人 ， 或 者 把 自己 进行 的 修改 或 改 
善 与 他 人 共有 至 的 话 ， 就 需要 有 再 发 布 的 自由 。 


这 些 自由 并 不 是 自然 发 生 的 ， 而 是 需要 我 们 大 家 来 保护 和 培育 ， 这 就 是 
FSF 的 主张 。 这 也 有 其 历史 根源 。 


14.5.2 ”自由 软件 的 历史 


曾几何时 ， 在 计算 机 的 黎明 期 ， 软 件 完 全 是 硬件 的 附属 物 。 买 了 计算 
机 ， 附 带 操作 系统 等 源 代码 ， 根 本 就 不 是 什么 稀罕 的 事 。 那 时 ， 或 者 在 
更 早 一 些 的 时 候 ， 甚 至 有 这 样 的 情况 ， 从 生产 厂家 买 来 的 计算 机 连 操作 
系统 也 没有 ， 需 要 用 户 自 己 来 开 友 各 种 软件 。 买 了 同样 计算 机 的 用 户 互 
相交 换 自己 开发 的 软件 ， 互 助 合作 。 虽 然 不 够 精致 ， 但 与 如 今 开源 软 件 
的 情况 很 有 些 相 似 之 处 。 


但 是 ， 随 独 时 代 的 有 发展， 软件 成 了 商品 ， 源 代码 也 摇号 一 变 ， 成 为 不 能 
简单 对 外 开放 的 企业 机 密 。 对 于 就 这 么 一 路 走 过 来 的 人 而 言 ， 就 相当 于 
逐渐 剥夺 了 他 们 的 自由 。1970 年 以 后 ， 软 件 的 源 代 码 就 不 再 是 理 所 当 
然 可 以 拿 到 手 的 东西 了 。 

这 一 背景 与 当时 美国 微软 公司 的 总 裁 比 尔 。 盖 次 先生 写 的 《 致 业余 爱好 
者 的 一 封 公 开 信 》 有 关 ， 这 一 事实 并 不 广为人知 。 在 发 表 于 1976 年 2 
月 的 这 封 信 中 ， 冀 次 先生 提出 ， 只 有 业余 爱好 者 能 开发 出 局 质量 的 软件 
吗 ? 专业 人 员 得 免费 工作 吗 ? 他 要 求 把 软件 作为 商品 来 处 理 。 


即使 这 样 ， 大 学 里 的 人 们 还 在 继续 以 一 种 田园 牧歌 的 方式 进行 软件 开 
发 ， 但 这 一 目 由 逐渐 被 商业 软件 所 侵蚀 。 


14.5.3 “Emacs 事件 的 发 生 
随 之 发 生 了 具有 象征 意义 的 事件 。 成 为 舞台 的 就 是 现在 还 在 广 为 使 用 的 
































高 性 能 编辑 器 Emacs， 主 要 登场 人 物 是 FSF 创始 人 、 打 省 理工 学 院 的 天 
才 程 序 员 理 查 德 。 斯 托 曼 (Richard Stallman) 先生 ， 和 后 来 因 设 计 Java 
而 成 名 的 詹 姆 士 : 戈 斯 林 (James Gosling) 先生 。 


最 初 的 Emacs 是 斯 托 曼 用 宏 编 辑 器 Teco 编写 的 。 作 为 易于 使 用 的 编辑 
器 而 受到 好 评 的 Emacs 有 众多 的 派生 版 本 。1981 年 ， 后 来 成 为 Java 设 
计 者 的 戈 斯 林 开 发 了 UNIX 版 的 Emacs。 


戈 斯 林 开 发 的 Emacs (通称 GoslingEmacs 或 Gosmacs) 拥有 使 用 名 为 
MockLisp 的 类 Lisp 语言 开发 的 扩展 功能 。 斯 托 曼 也 想 要 UNIX 版 的 
Emacs， 和 希望 能 在 戈 斯 林 版 的 Emacs 基础 上 进行 开发 。 他 想 要 的 Emacs 
不 是 MockLisp 这 种 类 Lisp 语言 ， 而 是 融合 了 真正 Lisp 的 Emacs。 


但 是 ， 葡 斯 林 把 Gosmacs 的 专利 卖 给 了 Unipress 公司 ， 斯 托 受 就 不 能 
够 在 Gosmacs 的 基础 上 开发 新 的 Emacs 了 。 结 果 ， 斯 托 曼 从 零 开 始 开 
发 了 自己 的 UNIX 版 的 Emacs。 


也 就 是 在 这 个 时 候 ， 他 开始 意识 到 ， 软 件 的 目 由 并 不 是 哪儿 都 有 ， 而 必 
须 目 己 来 保护 。 这 时 可 以 说 ， 意 识 到 “只 是 公开 源 代码 并 不 够 "这 一 事实 
的 斯 托 曼 比 大 众 领先 了 15 年 。 


在 那 之 后 ， 斯 托 曙 成立 了 保护 软件 自由 的 团体 FSF， 定 义 了 保证 软件 自 
由 的 许可 证 GPL (GNU General Public License) 。 另 外 ， 他 还 劝说 其 他 
人 




















从 那 时 以 来 ， 斯 托 曼 与 FSFE， 在 GPL 下 公开 了 大 量 的 软件 。 优 秀 的 编 
译 嚣 GCC， 以 及 涵 亲 了 UNIX 大 多 数 命 令 的 GNU 工具 等 ，FSF 的 工具 
已 成 为 开源 中 不 可 或 缺 的 存在 了 。 他 们 的 最 终 目 标 是 ， 创 造 一 个 从 上 到 
下 完全 自由 的 操作 系统 环境 GNU (GNU's Not Unix) ， 而 GNU/Linuxl 
的 出 现 几 乎 达成 了 这 一 目标 。 

1 按照 斯 托 曼 的 主张 ，Linux 是 内 核 的 名 称 ， 各 种 GNU 工具 结合 而 成 的 操作 系统 应 该 称 为 
GNU/Linux。 

但 是 ， 自 由 软件 并 没有 得 到 企业 的 理解 。 一 种 说 法 是 自由 这 个 词 让 人 联 
想到 人 免费， 还 有 的 说 斯 托 曼 仇恨 商业 软件 的 态度 也 让 经 营 商 业 软 件 的 全 
企业 对 他 敬而远之 ， 搞 不 清楚 到 底 是 怎么 回 事 。 

















14.5.4 ”开源 的 诞生 


在 这 样 的 环境 中 ， 吴 负 把 目 由 软件 推广 到 丙 业 领域 重任 而 诞生 的 单词 是 
开源 。 


1998 年 ， 在 浏览 器 战争 中 败 给 微软 公司 的 美国 网 景 公司 决定 把 自己 开 
发 的 Web 浏览 器 的 源 代码 作为 自由 软件 公开 。 其 背景 是 埃 里 元 : 雷 蒙 德 
(Eric Raymond) 先生 发 表 的 论文 《大 教堂 与 集 市 》。 


这 篇 论文 发 表 于 1997 年 的 Perl Conference。 这 篇 论文 以 Linux 为 题材 ， 
考察 了 通过 公开 源 代 码 ， 采 用 不 同 于 像 建 筑 大 教堂 那样 的 基于 精密 设计 
和 计划 而 执行 的 传统 软件 开发 方式 ， 而 是 像 集 市 一 样 宽松 由 志愿 者 上 自发 
合作 的 方式 ， 从 而 促进 优秀 软件 的 诞生 。 


网 景 公司 受 到 这 篇 论文 的 强烈 影响 。 为 了 打开 局 面 ， 他 们 作出 了 一 个 划 
时 代 的 经 营 策 略 ， 决 定 公 开 自 己 公司 的 主要 产品 Netscape Communicator 
浏览 器 源 代码 。 之 后 ， 雷 蒙 德 等 自由 软件 界 的 主要 人 物 作为 顾问 ， 与 网 
景 公 司 的 管理 层 举 行 了 战略 性 会 谈 ， 当 场 决 定 开创 公开 源 代码 和 商业 联 
姻 的 新 模式 ， 为 了 适当 地 表达 这 一 概念 , “开源 ”一 词 镍 生 了 。 
当时 开源 意味 着 公开 源 代 人 码 ， 只 是 现在 开源 的 各 种 特征 中 极为 有 限 的 一 
小 部 分 。 因 为 开源 这 个 词 中 不 包含 自由 这 个 最 为 重要 的 概念 ， 受 到 斯 托 
曼 等 自由 软件 界 人 士 的 反对 。 开 源 差 点 就 因为 他 们 的 反对 而 流产 了 。 
但 是 ， 采 用 开源 这 一 新 词 有 如 下 的 好 处 : 

。 新 词 带 来 新 气象 ; 

。 不 再 过 分 强调 免费 这 一 不 符合 商业 要 求 的 侧面 ; 

。 给 人 一 种 好 像 新 商业 趋势 的 印象 。 


开源 一 词 因 此 得 到 商业 人 士 的 支持 。 针 对 自由 软件 派 的 “轻视 自由 ”的 反 
对 意见 ， 现 实 派 并 不 怎么 重视 这 一 点 ， 认 为 开源 的 定义 “OSD) 保证 了 
目 由 。 





























在 开源 一 词 诞 生 之 后 ， 以 雷 蒙 德 为 中 心 的 组 织 Open Source 
Initiative (OSI) 马上 给 开源 下 了 一 个 明确 的 定义 。 根 据 这 一 定义 ， 开 


源 软 件 就 是 用 满足 开源 定义 的 许可 证 所 发 布 的 软件 。 开 源 定 义 的 概要 如 
图 14-37 所 示 。 


请 注意 ， 开 源 定义 既 非 作者 的 意 上 外， 也 不 是 软件 本 里 的 性 质 ， 而 是 用 许 
可 证 来 定义 的 。 也 就 是 说 ， 开 源 并 不 关心 软件 本 身 ， 而 只 是 关心 如 何 使 
用 和 发 布 软件 。 


传统 软件 的 许可 证 总 是 在 限制 用 户 的 权利 ， 与 此 相反 ，FSEF 定义 的 GPL 
则 保证 上 自由 软件 的 软件 目 由 ， 保 护 用 户 的 权利 ， 在 这 个 意义 上 ， 它 是 划 
时 代 的 。 开 源 的 定义 比 使 用 许可 证 来 判断 一 个 软件 是 否 是 目 由 软件 更 进 
了 一 步 。 开 源 的 定义 是 以 Debian GNU/Linux 发 布 中 为 判定 什么 样 的 软 
件 是 自由 软件 而 制订 的 DFSG (Debian Free Software Guideline〉 为 基础 
的 。 


1. 可 以 自由 再 发 布 
2. 可 以 得 到 源 代码 
3， 可 以 存在 衍生 作品 ， 衍 生 作品 可 以 使 用 同样 的 许可 证 
4. 在 允许 发 布 补丁 文件 的 时 候 ， 可 以 要 求 保持 完整 性 
5. 
6 
7 
8 
9 
1 























不 监视 个 人 和 团体 
.不 卜 视 应 用 领域 

， 再 发 布 时 没有 必要 追加 许可 证 
.不 依赖 于 特定 的 产品 
， 不 影响 同一 媒介 发 布 的 其 他 软件 
6. 技术 上 保持 中 立 












































图 14-37 开源 的 定义 


DFSG 是 为 了 把 大 量 的 软件 整理 成 一 个 发 布 时 ， 如 何 判 定 自由 软件 而 制 
订 的 。 如 果 是 满足 DFSG 许可 证 的 软件 ， 那 么 在 发 布 和 改变 之 前 就 不 再 
需要 每 次 征求 开发 者 的 承诺 ， 可 以 安心 地 制作 发 布 版 本 。 


可 以 说 继承 DFSG 而 诞生 的 开源 也 是 一 样 的 。 满 足 开 源 软件 ， 也 即 OSD 
许可 证 而 发 布 的 软件 ， 在 开发 方面 基本 上 没有 什么 限制 ， 可 以 安心 地 开 
发 和 发 布 。 看 了 OSD， 也 有 不 少 人 觉得 条 件 多 限制 多 ， 既 然 是 开源 ， 仅 
仅 公 开源 代码 还 不 够 吗 ? 但 在 发 布 软件 集合 时 ， 能 做 的 事情 是 对 个 别 软 
件 所 能 做 事情 的 最 大 公约 数 ， 如 果 不 加 一 定 的 限制 ， 能 做 的 事情 就 会 越 
来 越 少 。 作 为 开源 特征 的 集 市 开发 也 是 一 样 ， 为 保证 开发 工作 的 顺利 进 
行 ， 有 必要 使 用 适当 的 许可 证 来 让 自己 安心 。 











14.5.5 ” OSS 许可 证 


我 们 已 经 明白 ， 开 源 定义 的 实质 在 于 开源 许可 证 的 条 件 ， 对 于 自由 软 
件 /开源 软件 来 说 ， 许 可 证 是 至 关 重 要 的 。 许 可 证 明确 规定 了 用 户 可 以 
怎样 使 用 和 发 布 该 软件 ， 对 于 自由 软件 来 说 ， 它 是 思想 的 表现 ， 或 者 是 
保护 自由 的 武器 。 


满足 开源 定义 的 许可 证 有 很 多 。 在 OSI 的 网 页 上 
(http://Wwww.opensource.jp ) ， 经 OSI 认可 的 许可 证 就 多 达 72 种 。 还 
有 没 经 OSI 认可 ， 但 也 满足 开源 定义 的 许可 证 ， 所 以 其 总 数 还 会 更 多 。 
Ruby 的 许可 证 也 没有 经 OSI 认可 。 如 今 进 军 开源 领域 的 企业 逐渐 增 
加 ， 拥 有 法 律 部 的 大 企业 ， 好 像 大 都 育 从 于 律师 而 制定 自己 独特 的 许可 
证 。 实 际 上 ，OSI 认可 的 许可 证 中 ， 相 当 大 一 部 分 都 冠 有 美国 伴 果 公 
司 、 美 国 IBM 公司 等 一 些 公司 的 名 字 。 

OSS 许可 证 中 最 有 影响 的 有 以 下 几 种 : 


GPL 








GPL (GNU General Public License) 应 该 可 以 说 是 自由 软件 许可 证 的 时 
祖 ， 它 具有 如 下 特征 : 


。 没有 保证 ; 
。 表示 版 权 ; 
。 保持 同样 的 许可 证 。 


GPL 特征 中 最 重要 的 是 保持 同样 的 许可 证 ， 也 就 是 说 ， 在 对 GPL 许可 
证 的 软件 进行 修改 或 复制 的 情况 下 ， 必 须 保持 其 原来 的 GPL 许可 证 。 


这 意味 着 再 利用 GPL 软件 的 源 代码 而 开发 的 软件 的 许可 证 也 必须 是 
GPL。 批 判 GPL 的 人 把 这 称 为 感染 性 。 赞 同 GPL 的 人 们 称 之 为 版 权 保 
留 ， 因 为 这 一 性 质 意味 着 版 权 (copyright)〉 的 保留 。 


GPL 的 最 新 版 本 是 3.0。 这 一 版 本 发 表 于 2007 年 ， 其 中 国际 法 及 有 关 专 
利 的 条 款 比 以 前 的 版 本 更 为 明确 。GPL 软件 的 GPL 3.0 移植 好 像 也 在 顺 





利 进行 之 中 。 也 有 像 Linux 这 样 的 软件 ， 明 确 表 示 将 继续 使 用 原来 的 
GPL 2.0。 


LGPL 


LGPL (GNU Lesser General Public License) 也 是 与 GPL 拥有 同样 性 质 
的 许可 证 ， 但 对 于 适用 LGPL 许可 证 的 软件 库 ， 如 果 只 是 链接 在 一 起 的 
话 ， 就 不 能 做 到 版 权 保 留 ， 所 以 LGPL 把 保持 同样 许可 证 的 适用 范围 只 
限定 为 对 该 软件 的 修改 。 这 是 因为 如 果 对 链接 库 也 全 部 适用 GPL 许可 
证 的 话 ， 束 有 可 能 限制 库 的 使 用 范围 。 


LGPL 本 来 只 是 针对 库 而 制定 的 ， 原 名 为 GNU Library General Public 
License，FSF 为 了 表明 这 仅仅 是 例外 情况 ， 不 应 该 被 盲目 使 用 ， 因 而 从 
保证 目 由 的 观点 考虑 ， 把 它 改名 为 Lesser (次 ) 。 

BSD 许 可 证 


加 利 福 尼 亚 大 学 伯克利 分 校 在 公开 BSD UNIX 时 ， 制 定 的 许可 证 是 
BSD 许可 证 。 当 初 BSD 许可 证 由 以 下 三 项 组 成 : 


。 没有 保证 ; 

。 保持 版 权 表示 ; 

。 衍生 产品 的 广告 中 介绍 原作 者 《宣传 条 款 ) 。 
但 是 BSD 有 以 下 缺点 ， 由 于 最 后 称 为 宣传 条 款 的 项 目 ， 在 包含 有 大 量 
软件 的 软件 包 时 ， 有 可 能 导致 介绍 原作 者 的 部 分 会 比 广 告 内 容 还 要 长 的 
情况 ， 它 比 GPL 的 限制 还 要 严格 ，GPL 许可 证 的 软件 与 BSD 许可 证 的 
软件 的 源 代码 不 能 混合 使 用 (GPL 非 互 换 性 ) 。 


在 那 之 后 ， 经 过 加 利 福 尼 亚 大 学 的 同意 ， 删 除了 宣传 条 丈 ， 现 在 只 有 前 
两 项 的 修正 BSD 许可 证 得 到 广泛 使 用 。 


MIT 在 公开 X Window System 时 采用 的 许可 证 通称 为 MIT 许可 证 《也 
称 为 X11 许可 证 ) ， 其 内 容 与 修正 BSD 许可 证 几乎 是 一 样 的 。 


BSD 许可 证 与 MIT 许可 证 没有 感染 性 ， 在 希望 自己 的 软件 得 到 更 广泛 
使 用 的 层次 中 很 受 欢迎 。 男 一 方面 ， 与 GPL 相 比 ，BSD 因 保 护 〈 强 




















制 ) 自由 的 力量 较 弱 而 受到 批判 。 

APL 和 CPL 

其 他 许可 证 中 比较 有 名 的 有 Apache 基金 会 采用 的 Apache 许可 证 
(APL) ，IBM 提倡 的 CPL (Common Public License) 等 。 前 者 不 是 版 
权 保 留 ， 后 者 是 版 权 保留 

这 些许 可 证 的 特征 是 考虑 到 了 专利 和 商业 利用 等 情况 

14.5.6 ”开源 的 背景 


知道 了 开源 的 定义 和 历史 ， 还 不 能 说 就 理解 开源 了 。 最 重要 的 问题 是 为 
什么 要 开源 ， 或 者 为 什么 开源 能 行 得 通 ， 这 些 问题 也 还 没有 得 到 充分 说 
明 。 

















与 1976 年 冀 次 提出 的 “专业 人 员 得 免费 工作 吗 * 的 疑问 相反 ， 有 很 多 人 
积极 参加 开源 软件 的 开发 工作 。 其 中 既 有 把 自己 的 时 间 上 自发 地 无 偿 贡 献 
出 来 的 人 ， 也 有 把 开发 开源 软件 作为 职业 的 人 。 这 种 与 直 和 沉 相 反 的 情况 
征 如 何 发 生 的 呢 ? 


在 科学 领域 ， 共 享 知 识 和 信息 本 来 是 非常 普通 的 事情 。 即 使 不 用 看 站 在 
巨人 的 肩膀 上 的 牛顿 的 例子 ， 把 知识 作为 论文 〈 免 费 ) 公开 ， 利 用 前 人 
的 成 绩 进 行 新 的 研究 是 再 理所当然 不 过 的 了 。 


软件 ， 特 别 是 商业 软件 ， 一 旦 作为 商品 来 经 营 的 话 ， 束 容易 下 记 这 样 一 
把 ， 与 论文 的 内 容 一 样 ， 软 件 也 不 过 是 信息 的 一 种 ， 也 应 该 适用 同样 的 
原则 。 科 学 家 致力 于 研究 ， 大 学 或 研究 机 构 对 科学 家 给 予 支 持 ， 这 种 体 
0 
日 当 多 。 


但 是 ， 谈 到 近年 来 开源 的 普及 和 发 展 ， 计算 机 的 普及 和 因特网 的 发 展 则 
功 不 可 没 。 过 去 如 果 要 想 开 发 局 质量 软件 的 话 ， 需 要 购买 价格 高 昂 的 计 
算 机 ， 召 集 大 量 的 技术 人 员 。 现 在 一 般 家 姓 里 的 计算 机 都 完全 能 够 开发 
软件 ， 通 过 网 络 进行 合作 开发 的 事情 也 屡见不鲜 。 个 人 出 于 兴趣 而 编程 
也 已经 能 够 达到 相当 高 的 水 平 了 。 


关于 上 自由 软件 世界 ， 斯 托 曼 在 他 写 的 《GNU 宣言 》 中 ， 对 未 来 做 出 了 











如 下 的 预言 。 


“从 长 远 的 观点 看 来 ， 程 序 员 成 为 目 由 程序 员 ， 是 走 癌 完美 世界 的 第 一 
步 ， 在 那样 一 个 世界 里 ， 谁 都 不 用 再 为 维持 生计 而 像 奴 隶 一 样 劳 动 。 人 
们 每 星期 只 要 工作 10 个 小 时 ， 比 如 在 完成 制定 法 律 、 家 族 交 流 、 机 器 
人 修理 或 小 行星 探测 等 必要 的 工作 之 后 ， 就 可 以 自由 地 专注 于 编程 这 一 
充满 乐趣 的 活动 。 再 也 不 用 为 维持 生计 而 编程 了 。” 


人 类 还 没有 达到 不 用 为 维持 生计 而 编程 的 程度 ， 但 比 100 年 前 还 是 富 容 
得 多 。 好 像 有 很 多 人 在 业余 时 间 里 沉浸 于 编程 的 乐趣 之 中 。 因 此 ， 可 以 
理解 的 是 ， 开 源 激 及 了 优秀 程序 员 们 的 创造 力 ， 刺 激 了 他 们 对 知识 的 好 
奇 心 ， 使 他 们 从 中 得 到 至 高 无 上 的 快乐 。 男 外 ， 可 以 感觉 到 关心 软件 目 
由 的 人 也 在 增加 。 


想 知道 软件 是 如 何 执行 的 ， 就 去 阅读 源 代 码 。 软 件 有 错误 的 时 候 ， 就 目 
己 来 修改 。 如 果 和 觉得 上 自己 行动 受到 限制 的 话 ， 就 阅读 源 代 码 ， 利 用 编程 
技术 来 排除 这 一 限制 。 这 些 都 是 程序 员 的 本 能 。 


软件 的 复杂 化 和 丙 品 化 也 是 开源 的 背景 之 一 ， 不 容 忽视 。 软 件 所 黎 兰 的 
领域 越 来 越 广 ， 软 件 也 越 来 越 复杂 。 过 去 1 万 行 左 右 的 程序 就 实现 了 的 
操作 系统 ， 如 今 变 成 了 超过 600 万 行 的 巨大 软件 。 


14.5.7 企业 关注 开源 的 理由 


不 过 ， 和 人 们 钱包 里 的 钱 并 没有 发 生 什么 明显 的 变化 ， 即 使 是 每 个 软件 的 
规模 变 得 越 来 越 大 ， 软 件 整体 的 投资 并 没有 增加 。 结 果 ， 软 件 开 及 的 预 
算 和 总 剧 减少 ， 除 非 是 特别 大 的 软件 公司 ， 一 些小 公司 已 经 无 法 仅 靠 目 己 
来 开发 和 提供 人 们 所 需要 的 软件 。 


这 就 是 企业 关注 开源 的 理由 。 从 1998 年 以 来 ， 开 始 出 现 了 盔 利 企业 为 
自己 的 利益 而 开发 开源 软件 的 事例 。 一 旦 认识 到 无 法 自己 来 开发 所 有 软 
件 之 后 ， 企 业 只 自己 开发 最 具 苋 争 力 的 小 部 分 核心 软件 ， 而 让 大 家 共同 
来 开发 其 他 软件 ， 结 果 对 大 家 部 有 好 处 ， 企 业 关 注 开源 正 是 这 种 冷静 的 
分 析 考 量 的 结 


另外 ， 对 于 采用 这 一 战略 的 公司 而 言 ， 积 极 参与 开源 软件 开发 ， 拥 有 开 
源 开 及 人 员 ， 可 以 证 明 目 己 公司 的 技术 实力 ， 有 助 于 确立 品牌 。 我 工作 
的 网 络 通讯 研究 所 即 是 这 样 一 家 企业 ， 此 外 ， 还 有 不 少 通过 这 一 战略 而 












































取得 成 功 的 企业 。 


参与 开源 的 人 们 也 各 有 各 的 想法 。 有 因 经 营 考虑 而 参加 的 企业 ， 有 为 软 
件 上 自由 而 参加 的 程序 员 ， 有 因 上 级 命令 而 参加 的 公司 职员 ， 各 种 各 样 ， 
干 兰 万 别 。 但 是 ， 开 源 有 可 能 为 个 人 和 全 人 类 带 来 竺 福 ， 如 果 能 继续 下 
去 形成 民 性 循环 的 话 ， 那 真是 再 好 不 过 了 。 








14.5.8 Ruby 与 开源 


Ruby 从 一 开始 就 是 开源 软件 。Ruby 在 1995 年 初次 公开 的 时 候 ， 开 源 
这 个 单词 还 没有 诞生 ， 也 许 应 该 称 为 自由 软件 。 


在 这 继续 开发 Ruby 的 16 年 中 ， 我 经 常会 被 问 到 “为 什么 把 Ruby 开源 
了 了 呢 ? ”。 好 像 是 在 说 ， 既 然 Ruby 被 评 为 优秀 软件 ， 如 果 商 品 化 的 话 ， 
我 即使 不 会 变 成 瘟 获 那样， 也 会 变 得 相当 富裕 的 。 


非常 抱歉 ， 有 违 大 家 的 期 望 ， 我 除了 把 Ruby 作为 自由 许可 证 软件 公开 
以 外 ， 没 有 考虑 过 其 他 的 选择 。 其 理由 之 一 就 是 ， 我 从 大 学 以 来 所 处 的 
教育 环境 ， 几 乎 全 是 由 以 GNU 软件 为 主 的 各 种 自由 软件 构成 的 。 


我 所 使 用 的 编程 工具 ， 过 去 是 ， 现 在 也 是 ， 儿 乎 都 是 以 Emacs 为 主 的 各 
3 0 
学 到 的 。 


考虑 到 我 的 出 身 ， 除 了 服从 业务 命令 而 进行 的 开发 之 外 ， 把 目 己 开发 的 
软件 作为 目 由 软件 公开 ， 当 然 是 再 自然 不 过 的 了 。 


进一步 而 言 ， 现 在 Ruby 被 评 为 优秀 语言 ， 也 是 因为 它 公 开 为 目 由 软 
件 ， 得 到 了 很 多 人 的 帮助 。16 年 间 ， 很 多 人 为 改进 Ruby 付出 了 巨大 的 
努力 。 虽 然 Ruby 是 我 开发 的 语言 ， 但 如 果 没 有 大 家 的 力量 的 话 ，Ruby 
是 不 可 能 有 今天 的 。 


如 果 我 想 *Ruby 是 优秀 的 语言 ， 应 该 用 它 来 赚钱 "， 自 己 创业 开 公 司 的 
话 ， 丽 怕 现 在 Ruby 已 经 消失 得 无 影 无 中 了 。 实 际 上 ， 过 去 也 有 很 多 企 
业 曾 挑战 过 “语言 生意 ”， 但 几乎 没有 成 功 的 ， 编 程 语言 的 生意 就 是 这 人 么 
难 做 。 


男 一 方面 ， 因 为 我 没有 直接 选择 商业 之 路 ， 而 是 把 Ruby 作为 自由 软件 


























公开 ， 现 在 自己 的 时 间 几 乎 100% 都 可 以 用 在 Ruby 上 ， 而 且 所 得 到 的 
0 
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14.5.9 ”选择 许可 证 的 方法 
如 果 从 此 开始 开源 项 目 开 发 的 话 ， 那 么 应 该 如 何 为 软件 选择 许可 证 呢 ? 


许可 证 与 技术 无 关 ， 而 是 有 关 法 律 和 合同 的 工作 ， 这 不 是 技术 人 员 的 工 
作 ， 而 是 属于 律师 的 工作 范围 。 对 于 软件 开发 人 员 来 说 ， 这 决 不 是 一 件 
令 人 感 兴趣 的 工作 ， 有 人 甚至 会 想 :“ 哪 用 得 着 这 些 东西 呢 ? ” 


那么 为 什么 要 特意 准备 许可 证 呢 ? 其 主要 理由 是 要 表明 自己 的 主张 。 合 
适 的 许可 证 可 以 明确 地 表明 开 及 人 员 和 希望 如 何 使 用 和 发 布 该 软件 ， 这 样 
用 户 可 以 安心 地 使 用 软件 。 


如 果 这 一 点 不 明了 的 话 ， 用 户 为 了 能 够 真正 安心 地 使 用 软件 ， 就 会 直接 
询问 开发 人 员 。 对 开发 人 员 来 讲 ， 如 果 从 世界 各 地 传 来 大 量 “ 这 样 的 情 
况 也 可 以 使 用 吗 * 的 疑问 ， 这 决 不 是 什么 令 人 局 兴 的 事 。 还 有 ， 人 们 也 
希望 通过 许可 证 来 避免 诉讼 等 法 律 问 题 。 因 此 ， 许 可 证 虽 是 件 瑛 事 ， 却 
能 够 让 开 及 人 员 专 注 于 软件 开发 。 因 为 这 一 点 ， 最 初 的 选择 也 就 变 得 非 


常 重要 。 


我 能 给 出 的 首要 建议 就 是 ， 绝 对 不 要 目 己 定 义 新 的 许可 证 。16 年 前 ， 
在 开始 开发 Ruby 的 时 候 ， 如 果 能 明白 这 一 点 的 话 ， 我 的 人 生 束 会 快乐 
许多 。 当 时 ， 我 想 提 供 一 个 明确 允许 再 利用 源 代码 的 许可 证 。 就 这 样 ， 
我 以 Perl 许可 证 为 基础 ， 明 确定 义 了 一 个 允许 源 代码 的 再 利用 ， 不 对 输 
入 输出 数据 (Ruby 环境 下 的 Ruby 程序 ) 作 限制 的 许可 证 。 


定义 许可 证 跟 编程 序 也 有 类 似 之 处 。 在 考虑 允许 什么 禁止 什么 的 时 候 ， 
跟 考 虑 算法 是 一 样 的 。 现 在 回想 起 来 ， 当 时 还 是 蛋 高 兴 的 。 


但 是 ， 要 消除 这 个 “代码 ”中 的 错误 ， 那 比 程 序 可 要 难得 多 。 它 不 像 程序 
那样 可 以 简单 地 “执行 ”， 不 能 马上 发 现 问题 ， 即 使 友 现 了 问题 ， 修 改 起 
来 也 绝 非 易 事 。 


例如 ， 假 设 目 己 定 义 的 许可 证 所 包含 的 条 和 亚 中 有 点 什么 问题 。 马 上 可 以 
想到 的 一 点 就 是 ， 因 为 与 GPL 没有 互 换 性 ， 所 以 不 能 与 GPL 软件 链接 























在 一 起 。 基 于 类 似 的 思想 而 定义 的 许可 证 ， 却 没有 互 换 性 ， 这 是 一 件 多 
么 令 人 伤心 的 事情 啊 ， 但 许可 证 残 是 这 样 一 个 现实 。 在 这 种 情况 下 ， 要 
么 按照 字面 的 意思 放弃 与 GPL 软件 的 链接 ( 束 会 上 用户 感到 不 方 

便 ) ， 要 么 就 来 修改 许可 证 。 


如 琳 使 用 你 的 许可 证 的 软件 的 所 有 代码 都 完全 古 由 你 自己 写 出 来 的 话 ， 
这 几乎 不 成 为 什么 问题 。 只 要 发 布 新 的 许可 证 版 本 ， 问 题 就 解决 了 。 


但 是 ， 如 果 其 中 包含 了 其 他 人 写 的 补丁 的 话 ， 软 件 就 不 再 是 你 一 个 人 的 
了 ， 在 法 律 上 写 补丁 的 人 是 共同 拥有 版 权 的 。 


严格 说 来 ， 当 然 不 能 随便 侵害 他 人 的 版 权 ， 所 以 从 理论 上 讲 ， 许 可 证 的 
修改 需要 得 到 所 有 共同 作者 同意 。 像 Ruby 这 样 经 过 多 年 开 友 的 软件 ， 
已经 无 法 确认 到 的 有 多 少 人 拥有 相关 版 权 了 。 


像 FSF 软件 那样 ， 不 管 是 谁 ， 只 要 从 他 那里 接受 (10 行 以 上 的 ) 代码 

页 献 ， 就 必须 签订 书面 的 版 权 转让 合同 的 话 ， 就 不 太 容易 发 生 版 权 问 题 

了 。 但 是 ， 每 次 收 到 补丁 的 时 候 ， 痢 要 进行 这 样 的 手续 是 件 非 第 肤 烦 的 

事 。 大 多 情况 下 ， 我 只 好 放弃 许可 证 的 修改 ， 或 者 经 过 巨大 努力 之 后 也 

人 
眼 。 
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目 己 定义 许可 证 的 话 ， 束 意味 着 有 好 儿 年 的 时 间 ， 你 都 要 杀 目 承担 这 些 
奈 烦 事 。 我 从 心底 里 建议 你 不 要 定义 目 己 的 许可 证 。 


世界 上 存在 有 数量 众多 的 开源 许可 证 ， 从 中 选择 一 个 就 足够 了 。 而 且 建 
议 选 择 那 些 著 名 的 许可 证 。 


发 生 需 要 修改 许可 证 才能 解决 问题 的 ， 大 都 是 选择 了 不 怎么 出 名 的 许可 
证 的 项 目 ， 这 是 众所周知 的 事实 。 著 名 的 许可 证 因为 得 到 广泛 的 使 用 ， 
基本 上 没有 遗留 什么 大 问题 ， 即 使 有 什么 问题 ， 朋 友 们 大 多 也 安心 。 不 
0 4 eS 0 
\ 女 。 


在 选择 软件 许可 证 的 时 候 ， 首 先 要 考虑 是 人 否 硕 望 版 权 保留 。 版 权 保留 ， 
人 

















FSF 作为 软件 自由 的 拥护 者 ， 强 烈 推 行 版 权 保留 。 为 一 方面 ， 不 怎么 在 
乎 版 权 保留 的 开发 人 员 好 像 更 多 一 些 。 如 果 你 希望 版 权 保留 的 话 ， 几 乎 
就 只 能 选择 GPL 。 


如 果 你 的 软件 是 作为 库 来 使 用 的 话 ， 那 么 LGPL 则 是 个 不 错 的 选择 。 如 
果 对 库 适 用 GPL 许可 证 的 话 ， 那 事实 上 就 只 能 为 GPL 软件 所 用 ， 采 用 
限制 较为 宽松 的 LGPL 的 话 ， 有 可 能 使 你 的 软件 得 到 更 为 广泛 的 使 用 。 
但 是 ，LGPL 有 不 方便 、 难 于 理解 以 及 没有 得 到 充分 考察 等 缺点 ， 在 不 
太 强 烈 希望 版 权 保 留 的 时 候 ， 最 好 不 要 选择 它 。 


对 于 不 太 在 乎 版 权 保 留 的 人 来 说 ， 可 以 选择 GPL 以 外 的 许可 证 。 这 里 
的 要 点 是 ， 该 软件 是 否 需 要 与 其 他 软件 进行 链接 。 如 果 预 想到 将 来 可 能 
以 某 种 方式 与 GPL 许可 证 的 软件 链接 在 一 起 的 话 ， 那 么 与 GPL 的 互 换 
性 就 变 得 很 重要 。 拥 有 插件 功能 的 软件 或 库 特 别 要 注意 这 一 点 。 作 为 与 
GPL 不 相 矛 盾 的 许可 证 ， 有 修正 BSD 许可 证 和 MIT 许可 证 等 。 


另 一 个 应 该 考虑 的 要 点 是 ， 与 相关 软件 和 许可 证 是 否 一 致 。 比 如 Eclipse 
插件 就 应 该 选择 Eclipse 许可 证 《〈 即 使 不 与 GPL 互 换 ) 。 另 外 ，PHP 关 联 
软件 选择 与 PHP 一 致 的 许可 证 也 是 安全 的 。 用 Ruby 编 写 的 软件 与 Ruby 本 
身 的 许可 证 本 来 是 相互 独立 的 ， 但 好 像 也 大 都 选择 Ruby 许 可 证 。 


米 米 米 














开源 是 为 了 软件 自由， 在 自由 软件 运动 中 诞生 的 。 开 源 这 个 词 是 进军 商 
业 领域 的 市 场 营销 用 语 。 公 开源 代码 好 像 会 破坏 商业 软件 ， 实 际 上 有 许 
多 好 的 运用 方法 。 为 了 运用 得 好 ， 许 可 证 的 选择 束 非 党 重要。 


范 型 的 变化 


从 诞生 以 来 有 超过 15 年 了 ，Ruby 一 直 在 不 断 地 区 壮 成 长 。 速 度 更 

快 ， 功 能 更 多 ， 使 用 更 方便 ， 代 码 更 人 简洁， 不 知道 Ruby 会 进化 到 什 
么 程度 。 回 头 看 看 这 几 年 Ruby 的 变化 ， 引 人 注目 的 是 ， 它 越 来 越 朝 
文 持 函数 式 编程 风格 的 方 癌 发 展 。 

以 Haskell 为 首 的 函数 式 编程 语言 变 得 出 名 ， 人 们 能 实际 感觉 到 它 的 便 
利之 处 ， 这 是 这 种 变化 的 原因 之 一 ， 但 其 更 重要 的 原因 是 我 个 人 对 函 
数 式 编程 语言 所 持 的 矛盾 印象 。 




















像 本 章 已 经 说 明 的 那样 ， 函 数 式 编程 具有 非常 多 的 优点 。 静 态 声 明 式 
的 编程 代码 容易 理解 ， 容 易 检 查 出 错误 ， 类 型 检查 功能 也 有 效 。 最 重 
要 的 是 ， 没 有 副作用 的 函数 式 编程 与 将 来 会 越 来 越 重要 的 并 行 编程 的 
配合 简直 是 天 衣 无 颖 。 仪 束 这 一 点 来 说 ， 我 觉得 将 来 编程 的 主流 很 有 
可 能 是 函数 式 的 。 但 是 ， 用 函数 式 编程 开发 一定 规模 以 上 的 软件 时 ， 
会 突然 变 得 特别 难 ， 这 也 是 事实 。 这 也 可 能 是 因为 程序 员 还 没有 习惯 
函数 式 风 格 吧 。 与 结构 化 编程 和 从 中 发 展 而 来 的 面 癌 对 象 编程 相 比 ， 
我 怀疑 从 上 到 下 用 函数 式 风 格 开 友 一 定 规 模 的 软件 ， 可 能 不 符合 人 类 
的 思考 风格 。 

这 一 怀疑 是 否 正 确 我 们 还 不 知道 ， 就 表面 看 来 ， 杀 和 性 好 、 效 率 叉 高 
的 Ruby 语言 借用 了 函数 式 语 言 的 思想 ， 如 果 能 把 新 的 函数 式 编 程 的 
优点 和 友好 的 面 癌 对象 编程 的 优点 结合 在 一 起 ， 那 就 再 好 不 过 了 。 


也 许 编程 风格 的 急剧 转变 马上 束 近 在 眼前 了 。 























